上周,由 Elon Musk (根据 Elon Musk 的说法,他已经退出了这个机构)等人资助创建的非盈利组织 OpenAI 展示了一个令人颇感恐惧的产品,这个名叫 GPT-2 的 AI 模型也可以根据某些单词自动预测下一个单词,依托其海量的文本数据库,可以依次生成一个个句子,进而成为一段话、一篇文章。
下面这个视频来自英国《卫报》,如果无法直接观看,请点击这里跳转到 YouTube 里观看。
鉴于过去几年欧美各国对于「Fake News」的关注,OpenAI 的这个演示一经发布就引发了众多讨论。从某种意义上说,OpenAI 的 GPT-2 就是一个「Fake News」生成器,只需要简单输入几个单词,就可以将其作为一条社交媒体状态或者一篇博客文章的主题部分,如果再加上目前已经自动化的发布流程,虚假新闻的生产,真正实现了一条龙或者全自动化。
再看一段 GPT-2 「撰写」的文字:
The first thing that strikes you about GPT-2 is its simplicity. First, the system is built on unsupervised learning from text, which essentially means the software is trained to spot instances of certain words that, when paired with other words, trigger the system to give it a human review of them. The system also learns through example and repetition, but does not have the capability to recognize itself.
还有下面这段:

读完这两段话是不是格外震撼?但在渲染气氛之前,还是有必要搞清楚 OpenAI 的 GPT-2 到底是个什么东西。
二
GPT-2 是 OpenAI 推出的大规模无监督语言模型,相较于 2018 年 6 月的第一代模型,GPT-2 在技术参数上有了巨大提升,主要包括:
- 模型参数达到 15 亿个;
- 训练语料达到 40 GB,主要来自 Reddit 等论坛中高质量的页面,整个页面数量超过了 800 万;
OpenAI 在其官方博客上进一步介绍了 GPT-2 的能力:
GPT-2 displays a broad set of capabilities, including the ability to generate conditional synthetic text samples of unprecedented quality, where we prime the model with an input and have it generate a lengthy continuation. In addition, GPT-2 outperforms other language models trained on specific domains (like Wikipedia, news, or books) without needing to use these domain-specific training datasets. On language tasks like question answering, reading comprehension, summarization, and translation, GPT-2 begins to learn these tasks from the raw text, using no task-specific training data. While scores on these downstream tasks are far from state-of-the-art, they suggest that the tasks can benefit from unsupervised techniques, given sufficient (unlabeled) data and compute.
请注意最后一句话,利用海量的数据和足够的计算能力,GPT-2 在五监督学习上取得了巨大突破。换句话说,只需要给予一定量的数据和计算,GPT-2 就是一个可以自说自话的 AI 系统。
GPT-2 的另一个突破是「Zero-Shot」,也就是所谓无需预训练的方法,GPT-2 可以不针对任何特定数据训练,可直接将模型用在比如撰写为维基百科、新闻甚至图书的数据集里,OpenAI 展示了其取得的成绩,如下图所示,在总共 8 个数据集里,有 7 个数据集的最好成绩属于 GPT-2。

如此强大的模型,OpenAI 选择了一种非常不「Open」的方式,其官方博客这样写道:
Due to concerns about large language models being used to generate deceptive, biased, or abusive language at scale, we are only releasing a much smaller version of GPT-2 along with sampling code. We are not releasing the dataset, training code, or GPT-2 model weights……
在其开源的模型和代码里,大概只有 117M的模型样本和代码,此举则进一步引发了研究者的声讨,英伟达研究院负责人、AI 资深学者 Anima Anandkumar 毫不客气地指出:
What you are doing is opposite of open. It is unfortunate that you hype up +propagate fear + thwart reproducibility+scientific endeavor. There is active research from other groups in unsupervised language models. You hype it up like it has never been done before.
三
GPT-2 展示了一种技术的可能性——让机器具备自动撰写「一般性」文章的可能性,过去几年所谓新闻行业里的「机器人记者」在 GPT-2 面前根本不值一提,如果你仔细去看上面的例证,不管是语法、拼写还是逻辑,几乎做到了令人无法分辨的地步。
即便是 OpenAI 选择性的开源了一小部分内容,但技术的发展从来不可能完全封闭,早几年的 DeepMind 的 AlphaGo 击败人类围棋选手,不到几个月就出现了一个「开源的 AplhaGo」Leela,我也相信类似情况会出现在 GPT-2 或者说语言模型技术的发展中。
但问题并不在于 OpenAI 是否真正开放这项技术,也不在于 GPT-2 的替代品何时出现,其最核心的问题是,如何让公众认识到这些技术背后的伎俩,从而更好地分辨出机器生成文本以及其危害。
事实上,2018 年开始,机器就开始具备了「制造」视频的能力。
根据 Motherboard 的报道,利用人工智能可以制作虚假「明星色情影片」,这已经不是该网站第一次报道这类应用,不过在 MotherBoard 记者看来,如果说之前那个还是个「工程师作品」,那么如今这个产品几乎已经「开箱即用」:
Another redditor even created an app specifically designed to allow users without a computer science background to create AI-assisted fake porn. All the tools one needs to make these videos are free, readily available, and accompanied with instructions that walk novices through the process.
These are developments we and the experts we spoke to warned about in our original article. They have arrived with terrifying speed.
更进一步,这个应用的硬件使用门槛也很低:
…….anyone who can download and run FakeApp can create one of these videos with only one or two high-quality videos of the faces they want to fake. The subreddit’s wiki states that FakeApp is “a community-developed desktop app to run the deepfakes algorithm without installing Python, Tensorflow, etc.,” and that all one needs to run it is a “good GPU [graphics processing unit, the kind that high-end 3D video games require] with CUDA support [NVIDIA’s parallel computing platform and programming model].” If users don’t have the proper GPU, they can also rent cloud GPUs through services like Google Cloud Platform. Running the entire process, from data extraction to frame-by-frame conversion of one face onto another, would take about eight to 12 hours if done correctly. Other people have reported spending much longer, sometimes with disastrous results.
相比于人工智能取代人类工作这样的宏大命题,这类似乎有些恶作剧的应用,所引发的关注度往往都停留在社会伦理层面,但下面这个视频或许可以改变一些你的想法(如果无法直接观看,请点击这里查看):
这个视频是将演员 Steve Buscemi 的「头」按在了 Jennifer Lawrence 的「身上」,演讲的内容是 2016 年金球奖颁奖典礼的片段。
根据该视频作者、Reddit 用户 VillainGuy 的说法, 生成这样一段视频需要一个免费的处理工具「faceswap」,然后收集大量 Steve Buscemi 的影像内容 ,再依靠高端显卡和处理器完成视频,如果你有耐心,那么可以生成质量更高的视频。
从图像、视频到文本,人工智能的各项技术突破带来的机遇与挑战,一方面在加速社会文化认知的转型,所谓「图=真相」的时代早已过去,而 2019 年随着文本生成模型的普及,自动化的文本也将进一步塑造社会公众对于文字阅读的认知。但另一方面,大公司,尤其是平台公司,正在利用这些技术编织一条巨大的网,让平台上的用户、内容以及 Bot(机器人)无力脱身。
补充两个细节:其一,来自 Reuters 基金会的一项调查显示,即便是美国、英国、法国这样的发达国家,也仅仅有不到 3 成的受访者了解 Facebook 利用算法推荐内容,其中法国的数据最低,只有 19%。
其二,春节期间,我父母手机上的火山视频,首页全部推荐我老家的段子、视频,甚至连我表弟的婚礼视频都「智能」推送过来,我父母虽不明为何,却相当开心,而我在一旁竟无法言语一句。