BERT:然语言处理
2019 年 10 月,谷歌宣布了一项名为 BERT 的新索查询和文更新,据 Rankbrain 称,这是谷歌搜索几年来最重要的发展。它基于 NLP,旨在改善搜索查询的解释,并影响所有搜索查询的 10%。
BERT 不仅在解释搜索查询方面发索查询和文挥作用,还在排名和编译精选片段以及解释文档中的文本片段方面发挥作用。
好吧,通过将 BERT 模型应用于搜索中的排名和精选摘要,我们能够更好地帮助您找到有用的信息。事实上,在对结果进行排名时,BERT 将帮助 Search 更好地理解美国十分之一的英语搜索,并且随着时间的推移,我们将把此功能推广到更多语言和地区。
自然语言处理是识别实体的最重要方法
正如文章 《谷歌如何从非结构化 电报筛查 内容中识别和解释实体?》 如上所述,自然语言处理目前在 Google 识别实体及其含义方面发挥着最重要的作用。
然而实践表明,谷歌迄今为止对非结构化信息的使用非常有限,至少在知识面板中显示时是这样。我们在精选片段中发现了从非结构化数据进行数据挖掘的第一个实际应用,尽管这看起来更像是直接使用 自然语言处理 而不涉及知识图谱。
即使对于尚未记录在知识图谱 为你的品牌选择合适网红的 4 个技巧 中的实体,Google 目前也仅使用 NLP 来识别它们,而不管知识图谱如何。自然索查询和文语言处理对于识别实体并按主题对其进行分类很有用。然而,这只能保证完整性标准和及时性(如果适用)。 然而,NLP 本身并不能保证其正确性。
我认为谷歌在自然语言处理方面已经相当出色,但在评估自动提取的信息的准确性时尚未取得令人满意的结果。这或许就是为什么Google在SERP直接定位方面依然持谨慎态度的原因。
用于构建知识图谱的自然语言处理
正如上一篇文章中提到的, 谷歌如何从非结构化内容中识别和解释实体? 如上所述,从网站等非结构化数据中挖掘知识数据库(例如知识图谱)的数据并非易事。首先,除了完整性之外,信息的准确性也很重要。正如自然语言处索查询和文理 API 的结果所显示的那样,Google 现在可以通过自然语言处理以非常可扩展的方式保证完整性。只有使用涵盖主题的数据基础和相应的上下文才有可能进行显著性评分。
为此,我们将执行上面已经解释过的 数据 目錄 提供、 数据准备、 文本分析和 文本丰富的步骤。使用 NLP 将句子、段落和完整文本分解成几个部分,识别实体并补充注释(注解)。
这使得从非结构化数据中提取知识成为可能。在此基础上,可以创建实体和知识图谱之间的关系。 “词性标注”对此有帮助。名词是潜在实体,动词通常表示实体之间的关系。形容词描述实体,副词描述关系。构建知识图谱时的NLP示例;来源:
对于有歧义的术语或同义词,可以索查询和文根据上下文中提到的附加术语更精确地定义相关实体。通过这种方式,已识别的实体也可以分配到实体类型的类别中。例如,汽车品牌捷豹与动物以外的其他术语一起被提及。