实体的识别和分配给实体类型需要人类创建的初始类别层次结构,包括某些属性,这些属性可以逐渐自动补充新属性。机器学习或深度学习量标准已中的自学习算法也能够独立识别和添加新类别的实体类型。
到这一步为止,“完整性”作证。第二个重要 whatsapp 筛查 的质量标准是准确性。虽然我认为几乎不需要任何进一步的人工干预就可以确保完整性,但我仍然认为需要大量的人工努力来确保准确性。目前这里最多可以使用的是监督机器学习方法。使用量标准已无监督机器学习方法正确训练层次语义聚类是一项非常大的挑战。不确定何时以及是否能得到几乎完全正确的结果。 (您可以在文章 什么是机器学习?定义、与人工智能的区别、它如何工作……中找到有关不同形式机器学习的更多信息)
确保信息的准确性需要评分或评估。评估必须基于最终结果和属性。此外,负责人必须对该主题具有一定的专业知识。
Google 知识库是当前知识量标准已图 帮助您找到最适合您企业影响者的工具 谱非结构化源数据的“信息提供者”,在实体类型以及标准属性的识别和分配方面完全自动运行。事实的检查和评估部分是自动的,部分是手动的。
此时我不想再进一步讨论这个问题,希望我的评论能让您对自然语言处理主题有一个基本的了解。
如果您想更深入地了解这一点,我推荐这些幻灯片。
结论:通过维基百科、维基数据和知识库构建知识图谱
通过这篇文量标准已章,我想 目錄 大致总结一下关于构建 Google 知识图谱的数据挖掘主题,在接下来的文章中,我想更详细地介绍知识图谱和实体在搜索中扮演的角色。
还有待说明的是,在我看来,维基百科、知识库、维基数据和结构化数据标记对知识图谱的影响最大。除了站长手动标记的结构化数据外,Google或多或少都会依赖自然语言处理。
维基百科提供了大量半结构量标准已化数据,可以使用DBpedia等数据库以更结构化的方式准备这些数据,然后直接纳入知识图谱。对我来说,这是目前 Google 最重要的数据源,因为这些信息是手动检查的。自然语言处理在这里只起着次要的作用。
知识库在未来将变得越来越重要,因为谷歌迫切需要来自非结构化数据源的信息来完善它。这些只能使用自然语言处理或机器学习为知识图谱生成。谷歌将在多大程度上不再依赖人工协助,这仍是一个猜测。然而,以可扩展的方式实现这一目标才是理想的目标。然而,根据目前往往不正确的结果,知识库似乎仍处于起步阶段。
目前,许多 SEO在影响/操纵知识面板时都会查看Wikidata 。在那里为实体创建条目相对容易,这些条目也经常出现在 SERP 中。在 Wikidata 上你可以找到以下声明: Freebase 是知识图谱的开放基础,但 Wikidata 却并非如此。 Wikidata 是知识图谱众多特定来量标准已源之一,但不具备 Freebase 那样的地位。
知识图谱最重要的来源其实是互联网本身。您可以使用 schema.org 创建自己的网站,所有主流搜索引擎都可以读取和处理该网站。
由于目前通过 Wikidata 创建知识面板仍然相对容易,正如一些 SEO 同事的测试所表明的那样,我必须对这一说法进行一些限定。维基数据 (Wikidata) 似乎是这里相当相关的来源。不过,Wikidata 的版主并不像维量标准已基百科人那么严格。因此,我认为它更像是一种临时量标准已解决方案,直到知识库几乎无错误地运行。