AI 公司如何转型、数据为什么不是 AI 公司的护城河以及 AI 是否是新电力?

2017 年 12 月的时候,阿里巴巴技术委员会主席王坚博士曾发表过一个观点:「今天最需要转型的不是传统公司,而是互联网公司」。

这句话当然有不少潜台词。王坚博士主要关注的是互联网与制造业的融合,比如他说:「没有互联网的制造业没有未来,没有制造业的互联网更没有未来」。而随着制造业与互联网之间的关系越来越密切,衡量经济发展的标准也会从用电量转为计算消耗量。

由此也引发了我的一系列思考。如果互联网公司需要转型应对赋能实体经济,那么「人工智能公司」是否也应该转型呢?或者,是否可以推理出,所谓「人工智能公司」是一个伪命题呢?吴恩达曾将人工智能比作「电力」,那么这个「新电能」是如何发挥作用的,是否也和王坚所说的「计算消耗量」是同一个事情?

差不多一年前,我曾在当时的会员通讯里提出一个观点,人工智能不仅需要技术上的突破,还需要一场全新的社会协作。我引用了 Google 大脑团队的女科学家 Hanie Sedghi 的一段话:

The other issue is the need for collaboration between social scientists and AI researchers. You know, you can’t expect AI researchers themselves to come up with a clear understanding of fairness. Not only we need people in social sciences to collaborate with us in defining these words, but also we need to keep this collaboration all along to the end of the product research and development.

这种社会协作正在越来越多的垂直领域里发生:

脸部图像的标注是一个几乎没有门槛的工作,智力正常的成年人都可以很轻松地在脸部图像中找到鼻子、眼睛、嘴巴。但当图像识别从人脸延伸到垂直领域,比如医疗影像时,就面临一个巨大挑战,毕竟,不是每个人都具备医疗知识,而且从医疗安全的角度考虑,也无法有所谓的速成教程。因此,标注医疗影像的工作必须是一件人工智能工程师与经过专业培训的医生来一起完成。

类似的案例也出现在工业制造、环境保护、法院审理等多个领域。以法院庭审为例,长期以来,如何将庭审时的记录自动化,曾是一件遥不可及的事情。这是一个可以运用语音、自然语言理解的综合场景,同时也是一个专业化、场景化非常突出的领域。有一些公司将语音识别卖给法院使用,当另一个尴尬的事实是,当一个语音识别系统将一个小时的庭审语音转化为几百页的文本记录时,不管是原被告双方现场签字还是后续的搜索摘录,反而又成了一件效率低下的事情。

更进一步的问题:放眼全球,过去三四年的时间里,不管是 Google、Facebook、百度、阿里这样的巨头,还是商汤、旷视这样的独角兽企业,他们的人工智能技术到底开创了一个个新行业还是被一个个传统行业所改变?

答案也显而易见。以全世界公认人工智能技术最强的 Google 为例,其人工智能各项技术的用途大致分为两类:

  1. 内部:用于改进搜索结果;用于打造 Google 语音助理,并提升语音交互体验;用于打造基于算法的手机相机;
  2. 外部:将 AI 能力(硬件、服务)包装为单独的模块,通过云服务提供给不同领域的企业或开发者;与包括医疗、零售等行业合作,将 AI 能力用于他们的业务体系里。

类似的尝试,我们也可以在百度、阿里巴巴、微软等巨头公司新闻稿里看到,阿里云更是提出了「产业 AI」的概念,并一次为口号,开始向各个行业销售自己的 AI 技术。

从技术角度去看,当下 AI 最火的领域主要集中在机器学习。过去三四年的实践的确证明了机器学习可以实现某种意义上的 AI,但机器学习也面临两大无解的难题:其一是只能解决特定领域的问题;其二是需要海量的数据。

上述两大难题也注定了目前所有的 AI 巨头或独角兽只能选择「下沉」到各个行业,利用这些行业里丰富数据,一个个地解决行业问题,而这些特定行业的解决方案是否具有通用性,目前还留有巨大的疑问。

这也让我不得不得出第一个结论:当下的人工智能公司,或者人工智能产品,根本无法开启一个「AI 产业」,他们所扮演的角色,不过是各个行业转型过程中的助推器罢了,一如 a16z 投资人 Ben Evans 所言,机器学习(人工智能)更像是「新时代的 SQL」。

那么,如此多的 AI 公司与 AI 产品以及当下各行各业对于 AI 的拥抱,能否让 AI 成为如电力一般的技术呢?

吴恩达将电和人工智能放在一起对比,其中隐藏了一个条件,人工智能也是一个通用技术:

Just as electricity transformed almost everything 100 years ago, today I actually have a hard time thinking of an industry that I don’t think AI will transform in the next several years……

但正如上文所言,目前人工智能只能局限在某些特定领域,学术上曾经用了「弱人工智能(Narrow AI)」来定义只能在特定领域的 AI 技术。这也意味着,目前的 AI 根本无法成为一种通用技术,也无法像电力一样带来如此大的社会和经济影响。

即便我们假设,吴恩达所言的「人工智能」是学术界的「强人工智能」,也就是具备了通用技术的潜力1,那么 AI 又该如何像电力革命那样,影响世界呢?

投资人 Rob May 在一篇文章里探讨了这种可能性,他首先提出了一个观点:电力革命价值的最大化,来自于用电价格的平民化。

他提到了一位企业家:塞缪尔‧英萨尔(Samuel Insull)。一位英国出生的美国商业巨头,富豪,爱迪生早年的私人秘书和密友,通用电气创始人之一,他的一生备受争议,但他用大型蒸汽涡轮机来生产廉价的电力,实现规模经济以此来克服市场成本,这就使千家万户都能用得起电。

Rob May 认为,如果将电的发展规律作为 AI 的参考,势必要思考 AI 的成本结构,主要包括三个方面:

  1. 数据成本
  2. 推理成本
  3. 训练成本

先说数据。如上文所言,数据是人工智能里的「燃料」,尤其在已标注的数据。然而,AI 的数据与发电时的燃料所不同的一点:尽管数据越多越好,但当数据量达到某个阈值之后,其 AI 模型的精准度并不会继续提升。也就是说,AI 的数据无法成为一种规模经济,依靠更多数据来降低整个 AI 成本,几乎是不可能的事情。

另外值得一提的是,数据不会成为 AI 巨头们竞争的第一要务。原因也不难理解,即便是中美两大数据量最大的公司——阿里巴巴与 Google——其所拥有的数据还是自身业务数据,阿里的电商数据可以直接应用到制造业的 AI 模型训练吗?显然不能,同理,Google 的搜索数据,也无法帮助其 AI 模型应对零售业的需求。

从这个角度去看,AI 数据成本,既无法通过数据量扩大形成规模经济而降低,也不能依靠 AI 巨头们自身的数据优势。

再来谈推理和训练成本。我同意 Rob May 的观点,目前推理成本受限于硬件。过去的 2018 年,我们也看到了包括 Google、亚马逊、华为、阿里等巨头开始布局芯片领域,也涉及到了推理芯片,这是一个非常好的信号,有望推动这个领域进入规模化阶段。

而 Rob May 所言的训练,则是广义层面的「训练」,他这样写道:

……and by training I don’t mean training a neural net. The current model of doing so is way too targeted to be a generic benefit like we need for the AI-as-electricity framework to make sense. At some point, I think training will be a more generic process that includes humans training machines, and machines learning by reacting to a broad based environment like humans do — not just narrowly targeted applications. I think broad based training is the place to really get economies of scale — train a thing once and see it execute that training as many times as the world needs it to for all kinds of applications.

利用这种更广义的人与机器、机器与环境甚至机器与机器的「训练」,有望可以大幅降低 AI 的训练成本,比如某一天,你可以用 1 美元事业 GCP 上的机器学习服务器。Rob May 还援引了经济学家罗宾·汉森 The Age of Em 一书里观点,当 AI 成本最终接近电力成本时,整个 AI 的使用成本结构也很发生变化:你也不是为目前执行的任务付费,而是像用电一样,为你使用 AI 技术的时间与总量付费。

到这里,我也可以逐一回答本文一开始的几个疑问。

第一,当下,人工智能公司或者人工智能产品突破的唯一途径就是「下沉」到各个行业,打造各个垂直领域的人工智能;

第二,没有「人工智能产业」一说,但「产业人工智能」会有巨大市场;

第三,数据当然是「新石油」,不过,这种新能源并不你直接带来规模效应,数据也不是人工智能公司的护城河,至于护城河是什么,参加第一条;

第四,人工智能会不会成为像电一样的通用技术?有可能,但前提是,我们可以进入「强人工智能」时代。(完)


  1. 此处我只是假设,因为 50 年甚至 100 年里都不会出现真正意义上的「强人工智能」。  ↩