在这里,谷歌识别实体,为它们分配实体类型,并分配一个显著性分数,表明哪个是该句子中的主要实体或对象。 SEO 主管或 Wadshut-Tiengen 是主体或子实体。如果有关于该实体的维基百科文章,则会提供其链接。这表明 Google 也识别没有维基百科条目的实体。目前还不清楚知识图谱中已将这些问题考虑在多大程度上。然而,将“SEO主管”归类为消费品也表明按照类别或实体类型进行分配仍然不正确。
以下是使用 Google 的 NLP API 进行情绪分析的一个示例。
在这里,谷歌会分析句子中的情绪或观点。情绪分数表明情绪是消极的还是积极的。有趣的是,这种分析也可以应用于实体。因此,令人兴奋的是,谷歌可以收集有关品牌、产品、公司等的客户推荐和报告,并可能在对某些主题进行排名时考虑到这一点。
通过 Google NLP API 进行内容分类
不幸的是我这里没有截图,所以我 电报数据 将简单总结一下 API 的作用。通过 API 进行内容分类后,您不仅可以获得类别,还可以获得介于 0 到 1 之间的置信度分数。这表明该类别对于内容的准确程度。
正如我稍后将解释的那样,内容预分类在有效的 NLP 中起着重要作用。您可以在这里看到Google 将内容归类到哪些类别或语义上下文。
列出的内容类别分为不同层级的主类别和子类别。我找不到有关哪些属性集被分配给类别的任何信息。
实体分析中的 NLP
对于实体信息,Google 自己的索 如何扩大您的电子邮件列表 引中拥有数万亿个文档,并且拥有更多的搜索查询组合可供使用。搜索查询尤其适API 进行情合训练语义,因为它们具有意图和自包含的上下文。 (这里有一篇关于 Bing 如何使用此方法的文章。)
实体分析的一种方法是应用于文档的自然语言处理。 Google 对这一过程的描述如下:
词嵌入和自然语言处理
词嵌入词嵌入是 Google 分析文本的一种方 目錄 式。词嵌入允许不同API 进行情的内容,无论是简短的推文或查询、博客文章还是网站,以及其中包含的单词可以通过其上下文(即周围的单词和实体)更好地理解。词嵌入可用于添加或解释缺失的术语,以使句子或术语更容易理解。 Google 也使用此方法通过 Rankbrain 解释搜索查询。
在NLP应用中,比较著名的词嵌入或向量空间分析模型有:CBOW或Skipgram这两个不同应用中的Word2vec,Facebook基于其开发的Fasttext Embedding,以及从其发展起来的上下文嵌入,如ULM-Fit、Elmo和BERT等。但这些模型的问题在于过于注重术语。
这些模型没有考虑到词语所使用的上下文。只能使用上下文来训练词向量;只有上下文嵌入的新技术才能区分同一个词的不同上下文。对于 Word2vec 来说,Jaguar 这个词总是一样的,但对于 BERT 等上下文嵌入,会区分汽车上下文中的 Jaguar 和动物上下文中的 Jaguar。根据输入,尽管拼写相同,但意义单元也API 进行情会有所区分,并且在训练嵌入时,仅会改变相应的正确上下文,而不会使来自汽车领域的意义单元变得更接近来自动物领域的意义单元。