导航菜单
首页 » 散文美句 » 正文

一个续写故事达到人类水平的AIOpenAI大规模无监督语言模型GPT-2

  雷锋网 AI 科技评论按:模型大小的比拼还在继续!自谷歌大脑的 2.77 亿参数的语言模型 Tran

  雷锋网 AI 科技评论按:模型大小的比拼还在继续!自谷歌大脑的 2.77 亿参数的语言模型 Transformer-XL 之后,OpenAI 也完成了自己具有 15 亿个参数的语言模型 GPT-2,而且这个模型还有一项惊人的能力,就是从短句续写成篇的文章。雷锋网 AI 科技评论简单介绍如下。

  2018 年 6 月,OpenAI 发表论文介绍了自己的语言模型 GPT,它基于 Transformer 架构,用先在大规模语料上进行无监督预训练、再在小得多的有监督数据集上为具体任务进行精细调节(fine-tune)的方式,不依赖针对单独任务的模型设计技巧就一次性在多个任务中取得了很好的表现。这也是 2018 年中自然语言处理领域的研究趋势,就像计算机视觉领域流行 ImageNet 预训练模型一样。

  这次的 GPT-2 是 GPT 的直接技术升级版本,有多 10 倍的模型参数,多达 15 亿个,并在多 10 倍的数据上进行训练。训练数据是来自互联网的 40GB 高质量语料,具体来说这些语料来自 Reddit 论坛中出现的高评分外链页面;高评分表示这些页面中的内容有较高的质量。这样筛选出的语料内容多达 800 万个页面。

  模型在无监督训练阶段的目标是,给定一组单词组成的句子之后预测下文的下一个词。由于数据库有足够高的文本质量和足够高的多样性,模型也有很高的容量,即便这样简单的训练目标也得出了惊人的结果:模型不仅可以根据给定的文本流畅地续写句子,甚至可以形成成篇的文章,就像人类的续写文章一样。

  模型生成文本有时会出现失败的现象,比如文字重复、错误的世界常识(比如有时候模型会写到在水下燃烧的火)、不自然地切换话题,但在成功的例子中,模型生成的文本有多样、全面的叙述,对事件的介绍煞有介事,接近人类的表达质量,而且在段落之间甚至全篇文章之中保持连续一致。这可以说非常惊人(可以看下文的样例)

  OpenAI 的研究人员们发现,根据模型对内容的熟悉程度不同,进行数次尝试之后一般都可以得到较好的生成结果。比如对于训练文本中常出现的(也就是互联网上出现较多的)英国脱欧、指环王、歌手 Miley Cyrus 等话题,模型在大约一半的尝试中都可以生成有理有据的文本;反过来,对于训练文本中较少出现的技术性讨论以及哲学内容,模型生成的效果就要差很多。

  和之前的 GPT 一样,预训练结束后的模型可以在领域数据集上做进一步精细调节,对文本的风格得到更好的控制,比如在亚马逊评价数据上精细调节后,模型生成的文本更关注评分、商品类别之类的东西。

  除此之外,GPT-2 也可以在各种任务中做「无样本学习」,即不经过任何任务专用数据集训练就进行测试,也取得了优秀的结果。OpenAI 的研究人员们猜想这些任务都只是通用语言建模的子集,所以自然会有良好表现。

  GPT-2 的表现中最引人关注的当然还是文本生成水平,我们来看几个 OpenAI 也给出的文本生成样例。为了方便阅读,我们简单翻译了其中三组。在翻译过程中我们感觉到,模型的描写和叙事逻辑虽然还是有一些混乱,但模型不仅可以找到适合的文字风格,自己补充了许多细节,文本中也有一些上下文联系、有层层递进,语法还几乎没有错误,可以说是非常以假乱真了。

  (在一项令人震惊的发现中,科学家们在安第斯山脉中偏远的、从未曾探索过的山谷中发现了一群独角兽。更令研究人员们惊讶的是,这群独角兽能说一口流利的英语。)

  我们看到了,模型确实可以根据任意给定的句子续写生成近似人类水准的整篇文字,OpenAI 表示具有这样能力的模型可以有写作助手、对话智能体、无监督翻译等多种用途,但他们同时也担忧具有这样能力的模型可能会遭到滥用,比如被用来恶意地创作传播虚假信息的文章,就像之前曾经同样受到热烈讨论的人脸替换模型 DeepFake,网友已经用它把明星脸替换到视频里;也可以模仿他人写作、大批量制作钓鱼文章等等。

  由于 GPT-2 这样能力的模型可以用来生成欺骗性的、有偏见的以及暴力语言,而 OpenAI 非常看重研究内容的安全、合作、有益,他们更希望以合作的方式向其他研究人员共享他们的经验,更好地帮助整个领域的进步,而不是直接面向公众呈上所有成果,所以 OpenAI 并不打算一并发布完整的经过预训练的模型,只发布一个小得多的模型便于研究人员们用于实验。

  从技术角度来讲 GPT-2 的突破并不大,它只是再一次证明了足够大的网络配合足够多的数据训练就可以有良好的记忆能力,而逻辑和推理能力仍然是无法从记忆能力中自然自然地出现的。另一方面,这也再一次说明了只要肯投入足够多的计算力和数据,刷刷榜永远都不难。摊手。

二维码