谷歌,搜索的进化

2021年09月22日 02:00:46 拜伦建站 62次

自 1998 年成立以来,谷歌一直在不断地绘制网络地图,收集大量的内容并创建一个索引来组织所有信息。

您可以将谷歌搜索索引视为类似于书后索引的工作方式。它会告诉您出现特定单词的所有页面。除了互联网,还有两个重要的区别:一个是,一本书可能有 300 到 1,000 页,与网络的数万亿页相比,这不算什么。第二个重要区别是,在书后的索引中,您可以一次查找一个单词,而在网络上,您可以查找单词的组合。谷歌搜索副总裁Nayak表示,由于这种规模和组合爆炸,我们每天都会收到来自世界各地的数十亿次查询,但我们每天收到的搜索中有 15% 是我们以前从未见过的。查询流中有大量令人难以置信的新颖性。

部分新颖性归因于拼写错误的新方式,部分原因是世界在不断变化,人们需要新的,有时是非常具体的事物。

为了将所有可能的网络信息缩减为与您的查询真正相关的信息,Google 使用一种算法将它认为最有用的页面排在顶部,使用新鲜度和位置等因素,以及不同页面的链接方式彼此。语言理解确实是搜索的核心,因为你需要了解查询的含义,你需要了解文档的含义,以及这两者如何相互匹配。

当然,软件无法像我们那样真正理解语言,包括它的所有微妙之处和细微差别。但是程序员可以开发各种策略来尝试近似我们理解语言的方式。16 年前,谷歌构建了同义词系统的第一个版本,该系统考虑了不同词在不同上下文中具有不同含义的事实。因此,当您谈论笔记本电脑的亮度时,“改变”可能意味着“调整”。如果不了解这一点,许多相关页面就会由于字词选择的变化而被排除在搜索结果之外。

然后,大约十年前,该公司创建了知识图谱。其背后的想法是,查询或文档中的单词不仅是字符流,而且如果指代世界上的人、地点或事物,则可能具有某种含义。“如果您不理解特定字符串的含义,那么您就没有完全理解该词的含义,”Nayak 解释说。人、地点、事物、公司等实体被放入数据库,知识图将它们之间的关系联系起来。它还对名人或地标等实体的需要了解的快速事实进行了快速总结。

例如,如果你搜索“居里夫人”,谷歌的知识图谱可以告诉您她的出生时间和地点、她嫁给了谁、她的孩子是谁、她在哪里上的大学以及她以什么闻名。这是一种方便地展示信息的方式,而不仅仅是 Google 在搜索后显示的页面结果列表。

大约六年前,谷歌推出了他们的第一个基于机器学习的搜索版本。然后,基于深度学习社区中围绕自然语言算法进行的越来越多的研究,它继续改进它,这些算法可以查看使用单词的上下文来理解其含义,并找出需要注意的上下文部分。2019 年,谷歌为搜索引入了BERT架构。它的训练算法实际上是一系列“填空”练习。你会用一个常用短语,屏蔽随机单词,然后让网络预测这些单词是什么。它也被称为掩码语言模型。

展望未来,MUM 不仅能够理解 BERT 等语言,还能够生成语言。相比之下,MUM 比 BERT 大得多,功能也更多(Google 说它的功能大约是 BERT 的 1000 倍)。MUM 在公共网络语料库的高质量子集上进行了培训,这些子集涵盖 Google 提供的所有不同语言。搜索团队删除了低质量内容、成人内容、露骨内容、仇恨言论,因此 MUM 学习的语言类型在某种意义上是好的(希望如此)。通过同时对所有语言进行训练,它能够将信息从具有大量数据的语言概括为具有较少数据的语言,这可以填补可用于训练的数据较少的空白。

二十多年来,谷歌一直在为网络编制索引。现在它试图理解人类语言的细微差别,以便提供更好的搜索体验。返回搜狐,查看更多

上一篇:必应bing(必应(BING)一个在中国被遗忘的搜索引擎)
下一篇:国外seo高手总结,影响网站谷歌排名因素大揭秘

声明:本页内容由好推网络科技有限公司通过网络收集编辑所得,所有资料仅供用户参考;本站不拥有所有权,也不承认相关法律责任。如您认为本网页中有涉嫌抄写的内容,请及时与我们联系进行举报,并提供相关证据,工作人员会在5个工作日内联系您,一经查实,本站将立刻删除涉嫌侵权内容。

相关资讯 Releva ntnews
  1. 我们的承诺
  2. 我们的实力
  3. 我们的未来

站点地图

Copyright © 2002-2019 拜伦建站 sh-bilon.com 版权所有