这篇论文,透露谷歌团队构想的“未来搜索”

2021年07月02日 00:50:24 拜伦建站 67次

头图 | 付费下载于 IC Photo

传统的信息检索(IR, Information Retrieval)系统,并不直接回应信息需求,而仅提供对内容的参考。排序(Ranking)是该范式的关键组成部分。

这样的检索系统为用户提供了潜在答案的选择,实际上也给用户带来了相当严重的认知负担。开发问答(QA, Question Answering)系统的动机之一,正是在于希望返回的是答案而非结果的排序列表。

现在已经有很多关于 QA 系统的研究,然而现实中的大规模成功案例依旧匮乏。

在面临信息需求时,用户显然希望可以与专家接触并交流,但通常情况下会将目光投向 IR 系统,如搜索引擎(search engine)。而传统的 IR 系统不直接回答信息需求,只可能提供较权威的参考答案。成功的问答系统提供了由人类专家按需创建的有限语料库,既不及时也不可扩展。

相比之下,大型预训练模型能够直接生成可能对信息需求作出响应的文字,但目前还仅限于业余爱好者的水平而非专家 —— 因为它们没有真正的理解世界,容易产生幻觉,更重要的是,它们无法通过引用训练语料库中的支持性文档来证明自己言论的正确性。

针对这个问题,一支谷歌小组探讨了如何真正利用传统信息检索和大型预训练语言模型的思想,发展能够给出专家建议级别的系统。

在题为 Rethinking Search: Making Experts out of Dilettantes 的文章中,他们设想了基于统一模型构建 IR 系统的方法,通过将给定语料库的所有知识编码到一个可以用于广泛任务的模型中,从而消除了对索引的需求。

如果成功,综合传统 IR 系统和现代大规模 NLP 模型的 IR 模型,有可能产生革命性的转变以及能力上的重大飞跃,包括用在文档检索(document retrieval)、问答(question answering)、摘要(summarization)、分类(classification)、推荐(recommendation)等等场景。

1

基于语言模型的信息检索

论文通过以下问题来展开讨论:

l 如果完全摆脱索引的概念,并用大型的预训练模型来取代索引的概念会发生什么,能够有效地编码语料库中包含的所有信息? 

l 如果检索和排序之间的区别消失了,取而代之的是单一的响应生成阶段,那会如何?

最近在自然语言理解(如 BERT)、大规模语言建模、少样本学习和多任务学习(如 T5)等方面的突破提供了支持,表明这些问题已经不再像几年前那样高不可攀。

文章提出的综合 IR 系统和 NLP 模型的建模方法,旨在通过将传统 IR 系统的索引、检索和排序组件分解为一个单一的统一模型,来替代长期存在的 “先检索后排序” 模式。

在基于模型的检索中,用模型训练代替索引,用模型推理代替检索和排序。两个范式的高级示意图如下图 1 所示:

当然,必须承认模型已经在现代 IR 系统中无处不在地应用。现存和预想的系统之间的重要区别是统一模型取代了索引、检索和排序组件。

从本质上看,它之所以被称为基于模型是因为除了模型什么都没有。

这展现了一种与 IR 系统完全不同的思考方式。

在索引 - 检索 - 排序的范式中,建模工作(例如,查询理解、文档理解、检索、排序等)是在索引本身之上完成的。这导致现代 IR 系统由异构模型的不同混合组成(一个模型用于学习文档表示,另一个模型用于理解文档,还有一个模型用于排序)。

在基于模型的 IR 范式中,模型和索引是一体的。针对先前在索引之上开发的所有内容现在都直接集成到一个统一的模型中。而模型本身是由语料库建立的,就像索引是由语料库建立的一样,但编码的信息预计要复杂得多,以能够解决更广泛的任务。

例如,对于问答任务,所设想的模型能够合成一个答案,而该答案包含来自语料库中许多文档的信息,它将能够通过引用语料库中的支持证据来支撑答案中的断言,这很像一个精心制作的维基百科条目,通过链接到主要来源来支持每个事实的断言。

此外,这仅仅是模型的潜能范围内能够实现的众多新任务之一。

2

与之密切相关的技术突破点

接下来的部分,将更深入地探讨构建这种系统所需要密切关注的研究方向。

(1)超越语言模型

大规模的预训练 LMs (语言模型,Language Models)已经被证明对广泛的 NLP 和 IR 任务是有用的。然而,这些模型基本上是在术语级别上工作的。常见的自然语言任务,如掩码语言模型(MLM, Masked Language Modeling),通常将一系列术语作为输入,并产生一个或多个术语作为输出。

上一篇:宁波谷歌优化,谷歌公司推荐
下一篇:估值 10 亿美金,谷歌全球搜索第一,这家美妆公司是怎么做到的?

声明:本页内容由好推网络科技有限公司通过网络收集编辑所得,所有资料仅供用户参考;本站不拥有所有权,也不承认相关法律责任。如您认为本网页中有涉嫌抄写的内容,请及时与我们联系进行举报,并提供相关证据,工作人员会在5个工作日内联系您,一经查实,本站将立刻删除涉嫌侵权内容。

相关资讯 Releva ntnews
  1. 我们的承诺
  2. 我们的实力
  3. 我们的未来

站点地图

Copyright © 2002-2019 拜伦建站 sh-bilon.com 版权所有