首次开源这一强大算法,我们向Meta致敬

2022年05月10日 08:07:39 拜伦建站 175次

出品 | 虎嗅科技组

封面来自 the Verge

Facebook 改名 Meta 后," 财务厄运 " 并未因此终止,但技术作风却一如既往的大胆。

虽然自 2022 年 2 月以来,公司股价已下跌 30% ,市值损失超过 2500 亿美元。但是,这并没有影响开发者们的精神世界与工作动力。

本周,来自 Meta 一小撮程序员的疯狂举动,在全球 AI 开发者群体中引发了巨大骚动——

Meta AI 实验室高调宣布,将开放自己的语言大模型 OPT(Open Pretrained Transformer,预训练变换模型),毫无保留地贡献出所有代码。

不夸张地说,在人工智能圈,这算得上是一个里程碑事件。

这个被称为 OPT 的大规模语言模型,自建立以来,各项参数与能力便精准对标 OpenAI 的 GPT3,甚至连缺点都是。后者在全球学术界建立的赫赫声望和随处可见的网络小说续写作品,想必已不必再过多赘述。

简而言之,这是一种利用巨量网络文本与书籍进行训练,可以将单词和短语串在一起组成精彩文本的深度学习算法模型。

它能生成复杂句子,有时候甚至读起来与人类撰写毫无无异(想粗浅了解 GPT,可以看这篇《让 00 后疯狂的超级算法》)。某种程度上,它所具备的神奇人工文本模仿能力,被视为人类通往真正机器智能道路上的一个巨大突破口。

首次开源这一强大算法,我们向Meta致敬

GPT3 生成的文本

然而," 培育 " 大模型的代价,是昂贵的人力成本与成千上万块显卡。因此,许多学者都认为,把这种大模型开放出来,几乎不可能发生在 " 游走在垄断边缘 " 的大型科技公司身上。

譬如,OpenAI 的 GPT3 曾被专家粗略估算过,至少投入了 1000 万美元。他们后来为了摆脱入不敷出的现状,将 GPT3 作为一项付费服务来推广——只提供 API,但不会开放模型本身和底层代码。

然而,Meta 表示,会把不同参数规模的训练模型以及 "OPT 如何建造和训练 " 的详细信息分发给研究人员。

其中,也包括一份超过 100 页的算法训练日志——实验室记录下的每一个错误与崩溃现象,训练和添加数据的过程,以及有效与无效策略。

" 考虑到计算成本,如果没有大量资金,这些模型很难复制。对于少数通过 api 可调用的模型(这里暗指 GPT3),如果不能获得完整的模型权重,就难以进行研究。" 他们在 OPT 的论文摘要里鲜明表达了态度,

" 因此,我们推出了 OPT(这是一个只有解码器的预训练变换模型),参数范围从 125M 到 175B,目标是全面且负责任地分享给感兴趣的研究人员。"

首次开源这一强大算法,我们向Meta致敬

" 是真的开放。"

一位 " 正准备去看看他们实现情况 " 的中国开发者查阅了 MetaAI 网站后,告诉虎嗅,这的确是一个好消息。" 从现有数据来看,整个训练代码都被贴出来了。Meta 很了不起。"

擅用集体力量

这一次开源,毫无意外受到了学术界的高度认可,甚至有科学家称其是一个伟大的举动。

究其原因,一方面,一项强大技术,如何在一个封闭的企业精英团队中诞生,一直是包括学界在内大众好奇的焦点

另一方面," 开源 " 的优势在于利用集体力量来解决问题,因此长期被硅谷的有识之士所倡导——更多人参与进来,技术突破便来得越快,漏洞便填得越快。

尽管大部分人几乎只记住了 GPT3(因为它是迄今为止最好的 " 通才 "),实际上,除了 Meta,谷歌、微软都曾在 2020 年都推出过相似的大模型,但由于都是 " 关起家门 " 做私密研究,因此在 " 透明度 " 方面饱受诟病。

譬如,2021 年的 " 谷歌人工智能伦理学科学家辞退事件 " 便引发了长达一年的 " 批判海啸 ",而这一切都是因一篇探讨 " 语言大模型暗藏重大隐患 " 的论文而起。

首次开源这一强大算法,我们向Meta致敬

被谷歌无理辞退的人工智能伦理科学家 Timnit Gebru

没错,GPT3 们不仅缺陷多多,而且非常致命。尽管多数责任应归咎背后的人类文本。

创业公司 Latitude 曾在 2019 年推出过一款基于 GPT3 开发的半开放冒险游戏 AI Dungeon。但没想到,随着用户增多,OpenAI 监测到,有玩家竟然利用这项高阶技术,自发生成儿童性爱场景。

虽然用户利用 GPT3 生成的污言秽语也曾遭遇过广泛抨击,但这件事仍然让大众哗然。这也是外界第一次意识到,GPT3 这类大模型更为深刻的阴暗面。因此,Latitude 增加了审核系统,但却引发了与用户体验相关的一系列麻烦。

首次开源这一强大算法,我们向Meta致敬

AI Dungeon 游戏界面

然而," 越是危险,越不能回避危险 "。这也是 Facebook 自称选择开放的关键原因之一。

上一篇:【谷歌搜索「idiot」事件并不意外 细数你不知道的谷歌那些事儿】在使用搜索引
下一篇:跨境知道快讯:谷歌广告优化实操误区要点指引

声明:本页内容由好推网络科技有限公司通过网络收集编辑所得,所有资料仅供用户参考;本站不拥有所有权,也不承认相关法律责任。如您认为本网页中有涉嫌抄写的内容,请及时与我们联系进行举报,并提供相关证据,工作人员会在5个工作日内联系您,一经查实,本站将立刻删除涉嫌侵权内容。

相关资讯 Releva ntnews
  1. 我们的承诺
  2. 我们的实力
  3. 我们的未来

站点地图

Copyright © 2002-2019 拜伦建站 sh-bilon.com 版权所有