人工智能商业内参#2018-01-28

过去一周,科技行业的掌门人几乎都在一年一度的达沃斯经济论坛,他们的讨论议题也丰富多彩,但围绕人工智能的讨论却有诸多可以进一步解读的空间。

首先,随着人工智能在各行各业发挥出一定作用,围绕这项技术的讨论已经升级为「人工智能与经济」、「人工智能与社会安全」以及「人工智能与就业」等等。

英国首相特里莎·梅就借着达沃斯向全球宣布,英国要争取人工智能的领导位置。BBC 在一篇中英美人工智能「三国杀」的文章指出三国发展的侧重点,以英国为例,特里莎·梅列举了其优势:

  • 英国国内人工智能创业大潮汹涌,过去三年每周都会出现一家与人工智能相关的创业公司;
  • 英国是世界上最早为引进AI技术辅助政府公务做好准备的国家;
  • 英国政府准备成立一个新的顾问机构,数据伦理和创新中心(Centre for Data Ethics and Innovation),承担与世界各国的联络协调;

另一个对特里莎·梅利好的消息,一家来自加拿大的明星创业公司 Element AI 即将在伦敦建立办公室,这家公司的三位创始人是深度学习领域炙手可热的人物 Jean-François Gagné、Nicolas Chapados 和 Yoshua Bengio,该公司背后投资者则包括 Google 、英特尔、英伟达等。

上述几点可以保证英国在人工智能大战中突围吗?至少在欧洲,英国还要面临法国、德国的挑战,Google 不久前宣布将法国作为新的人工智能研究中心,主要关注医疗和环境领域的落地应用。而 Facebook 也会进一步扩大其在巴黎的人工智能实验室规模。

第二,如果从政治角度解读特里莎·梅制定的英国人工智能发展大纲,其更多的出发点还是要保证新技术不会对政治和社会产生冲击。事实上,过去一年多的时间,特里莎·梅曾多次抨击科技公司在重大社会问题上的「不作为」或「肆意妄为」。与之相对,美国三大科技公司 Twitter、Facebook、Google 最近在美国国会听证会中的诸多爆料,也进一步凸显了新技术,尤其是人工智能已经成为国家安全的重要组成部分,而且,令欧美国家感到恐惧的,还有普京对于人工智能的判断

Artificial intelligence is the future, not only for Russia, but for all humankind. It comes with colossal opportunities, but also threats that are difficult to predict. Whoever becomes the leader in this sphere will become the ruler of the world……

而在社会和文化层面,本周 Motherboard 又报道了一个可以利用人工智能制作虚假「明星色情影片」的应用,这已经不是该网站第一次报道这类应用,不过在 MotherBoard 记者看来,如果说之前那个还是个「工程师作品」,那么如今这个产品几乎已经「开箱即用」:

Another redditor even created an app specifically designed to allow users without a computer science background to create AI-assisted fake porn. All the tools one needs to make these videos are free, readily available, and accompanied with instructions that walk novices through the process.

These are developments we and the experts we spoke to warned about in our original article. They have arrived with terrifying speed.

更进一步,这个应用的硬件使用门槛也很低:

…….anyone who can download and run FakeApp can create one of these videos with only one or two high-quality videos of the faces they want to fake. The subreddit’s wiki states that FakeApp is “a community-developed desktop app to run the deepfakes algorithm without installing Python, Tensorflow, etc.,” and that all one needs to run it is a “good GPU [graphics processing unit, the kind that high-end 3D video games require] with CUDA support [NVIDIA’s parallel computing platform and programming model].” If users don’t have the proper GPU, they can also rent cloud GPUs through services like Google Cloud Platform. Running the entire process, from data extraction to frame-by-frame conversion of one face onto another, would take about eight to 12 hours if done correctly. Other people have reported spending much longer, sometimes with disastrous results.

而随着机器学习、深度学习的软硬件成本持续下降,这类应用的易用性和可用性还会大大提升,我们也会在接下来一段时间看到更多的类似应用。

相比于人工智能取代人类工作这样的宏大命题,这类似乎有些恶作剧的应用,所引发的关注度往往都停留在社会伦理层面,但如果考虑到社交媒体制造的「Fake News」如何影响了美国大选以及随后的社会政治走向,我们也应该警惕,「fake porn」所引发的连锁效应,这种基于视觉的虚假观赏再满足一部分人的生理需求,政治、社会层面的虚假视频又何尝不是一种生理需求呢?

第三,回到技术发展的角度去看,当下诸多围绕人工智能的讨论、观点都存在不同程度的误解。李飞飞对此次达沃斯人工智能讨论的观感就是:科技含金量不高。这句话的潜台词则是,在缺乏基本常识的前提下,所有的讨论都不过是一场作秀:

达沃斯论坛总的来说科技含金量不高。我所参加的论坛里可能最“学术”的是麻省理工学院组织的一场对话,参加者除了我还有李开复,Richard Socher (Salesforce AI 负责人), Mustafa Suleyman (DeepMind 联合创始人), 和Andrew McAfee (MIT 经济学教授)。大家都共同认为今天的人工智能科技还存在大量的局限,尤其是对监督学习和人工赋予knowledge的依赖(比如AlphaGo Zero)。

我在本周的一篇关于人工智能现状与未来的长文里,也讨论了目前在算法、硬件、应用的重大难题。这些局限性和困难一方面当然需要技术从业者们继续努力,通过调教更好的算法、研发性能更好的硬件和更丰富的应用来解决,另一方面则需要一场全新的社会协作。

Google 大脑团队的女科学家 Hanie Sedghi 在一个访谈中谈到她对人工智能下一步发展的思考,其核心就是全新的社会协作:

The other issue is the need for collaboration between social scientists and AI researchers. You know, you can’t expect AI researchers themselves to come up with a clear understanding of fairness. Not only we need people in social sciences to collaborate with us in defining these words, but also we need to keep this collaboration all along to the end of the product research and development.

事实上,这种全新的社会协作已经开始出现。在越来越多的垂直领域,倘若没有这种协作,人工智能的落地几乎是个无稽之谈。以图像这个大领域为例,其中的人脸识别之所以发展如此之快,除了算法的优化之外,其背后重要推动力还有脸部图片人工标记规模的快速扩大。

脸部图像的标注是一个几乎没有门槛的工作,智力正常的成年人都可以很轻松地在脸部图像中找到鼻子、眼睛、嘴巴。但当图像识别从人脸延伸到垂直领域,比如医疗影像时,就面临一个巨大挑战,毕竟,不是每个人都具备医疗知识,而且从医疗安全的角度考虑,也无法有所谓的速成教程。因此,标注医疗影像的工作必须是一件人工智能工程师与经过专业培训的医生来一起完成。

类似的案例也出现在工业制造、环境保护、法院审理等多个领域。以法院庭审为例,长期以来,如何将庭审时的记录自动化,曾是一件遥不可及的事情。这是一个可以运用语音、自然语言理解的综合场景,同时也是一个专业化、场景化非常突出的领域。有一些公司将语音识别卖给法院使用,当另一个尴尬的事实是,当一个语音识别系统将一个小时的庭审语音转化为几百页的文本记录时,不管是原被告双方现场签字还是后续的搜索摘录,反而又成了一件效率低下的事情。

此时,就需要人工智能工程师与法院的专业人士,比如书记员进行深度协作,如何能让在语音转文本的同时还能实现文本的摘要提取,这种专业和特定的场景需求一定是协作才能最终完成的。

这也构成了观察本周一个融资新闻的角度。本周,人工智能公司第四范式宣布完成B+轮融资,同时宣布获得来自中国工商银行、中国银行、中国建设银行三家国有银行及所属基金的联合战略投资。

在官方通稿里,反复强调「国有银行的第一次」,这种利用资本认可来展现公司价值的方式已经是行业惯例,但更深层次的趋势则是新兴的人工智能公司与古老银行之间的一次行业协作。

写到这里,突然想起阿里巴巴的王坚博士的一个观点:「今天最需要转型的不是传统公司,而是互联网公司。」

这句话套在人工智能公司头上也非常合适。