Google 如何让 AI 与云结合、阿里华为AWS的同一布局以及 2019 年的新趋势

云计算与人工智能结合的口号已经喊了很多年,但站在 2018 年末的时间点去看,这个趋势正在成为现实。

让我们先来简单回顾一下过往巨头公司们是如何将两者绑定的。

2016 年 3 月,Google 旗下的 DeepMind 利用 AlaphGo 展现了 Google 的人工智能能力,几乎与此同时,Google Cloud Platform(以下简称 GCP)召开了一场低调的会议,之所以说低调,一方面是因为当时整个行业的热点都聚焦在 DeepMind 身上,另一方面则是,Google Cloud 在当时还非常弱小。

但为期两天的会议还是发布了一些令人眼前一亮的产品(或者说理念),这其中的关键词就是机器学习,尤其是基于云端的机器学习,官方的新闻稿写道:

Cloud Machine Learning will take machine learning mainstream, giving data scientists and developers a way to build a new class of intelligent applications. It provides access to the same technologies that power Google Now, Google Photos and voice recognition in Google Search as easy to use REST APIs…..

这一次会议是 Google 全面将人工智能与云绑定在一起的开始,然而外界并不能明白,GCP 上的机器学习到底和亚马逊 AWS、微软 Azure 上有什么区别以及优势在哪里,当时的一位参会者在其博客里直言:

There’s no doubt about both Google and Amazon being good at what they do, but exactly because of that fact, the answer “because we’re Google” just doesn’t cut it anymore.

“Why is GCP’s Machine Learning better than Amazon’s and Microsoft’s?” “Because we’re Google and they are not”.

“Why is GCP more secure than AWS?” “Because GCP is Google, and AWS is not”.

而到了 2016 年 5 月,Google 又召开了一场高调的大会:Google I/O。这次会议进一步展现了 Google 对「云计算+人工智能」的决心,在这次会议上,Google 推出了为机器学习独家定制的芯片,Tensor Processing Unit(以下简称为 TPU)。

img
Google 不对外出售 TPU,将其与 GCP 紧密结合在一起,并且也为 Google 开源的深度学习框架 Tersorflow 进行了优化,考虑到 Tensorflow 自开源以来所形成的强大生态,这也进一步增强了 Google 在云服务领域的话语权,Google 希望以人工智能打破云计算领域的僵局,

随后的 2017、2018 年,GCP 的机器学习产品进一步与 TPU 绑定,尤其在 2018 年 2 月,Google 宣布开放 TPU 云服务,这也让 GCP 形成了独特的人工智能+云的产品架构:

  • 硬件:TPU;
  • 框架:TensorFlow;
  • 社区:Kaggle;
  • 计算/存储平台:GCP;

Google 的这一系列举措也进一步引发了云计算领域的人工智能热,2016 年的 AWS re:Invent 大会上,AWS 发布了多款机器学习 API 产品,而这年早些时候,阿里云推出基于人工智能的城市解决产品:杭州城市大脑。

2017 年的 Bulid 大会上,微软也发布了一系列机器学习产品,在微软看来:「(Azure 云)既是孕育和发展人工智能的平台和基础,同时也在以多样化的云服务的形式,为全球开发者和企业提供触手可及的人工智能平台与工具。」

在这样的理念之下,微软增加了多个智能 API 接口,「利用这些 API,开发者能够将视觉、语音、语言、知识和搜索等智能应用加入到任何应用场景中」。

2017 年末,AWS 继续在云端增加机器学习的能力,Amazon SageMaker 亮相这一年的 re:Invent 大会,SageMaker 是一个端到端的机器学习服务,不仅可以简化开发者的工作内容,你只需输入数据,就可以自由选择算法、模型进行训练,同时还具备迁移、部署的灵活性。

img

如果从技术的创新性来看,Google 无疑是最具引领效应的,而这种引领效应也被其市场部门不断扩大,最终也塑造 Google 是「云端人工智能最强」的公众印象。

但事实的另一面则是,由于机器学习的早期的实践者并非大企业,更多是研究者或开发者,GCP 早期的技术创新的确满足了这些人的需求,但随着机器学习开始步入企业,尤其是大企业开始部署相关技术,GCP 企业级的服务缺陷彰显无遗。而此时,Azure 与 AWS 则通过将机器学习产品与现有的客户需求相结合,进一步释放了云平台的号召力,这也就不难理解为何 GCP 这一年举步维艰了。

过去的 2018 年,从国内的阿里云、华为到 AWS,在不断强化云服务的同时,还在做同一件事情,也是一年半之前 Google 做的事情:研发 AI 芯片。

9 月的杭州云栖大会上,阿里巴巴 CTO 张建锋透露了阿里巴巴的芯片计划:

  • 成立平头哥半导体有限公司;
  • 2019 年发布第一款神经网络芯片;
  • 正在研发量子芯片;

11 月,随着阿里云架构调整,张建锋出任全新的阿里云智能事业群总裁,也将进一步整合AI 芯片、达摩院与阿里云平台,部分意义上与 GCP 之前的架构类似。

10 月,华为也在其全连接大会上全面发布了公司的 AI 战略,并首次公开了 AI 芯片计划:我曾在当时的会员通讯里做过分析:

…..此次外界更多的关注点,还是聚焦在华为发布的人工智能芯片:Ascend 910。这是一款面向数据中心的人工智能芯片,华为官方将其性能定义为「目前全球已发布的单芯片计算密度最大的AI芯片」,将在明年二季度通过华为的公有云提供相关服务。

这是一个与 Google Cloud 的 TPU 颇为类似的做法,2016 年,Google 率先发布了一款基于云端的人工智能专用芯片 TPU(tensor processing unit),截止到 2018 年 5 月,Google TPU 已经更新到第三代。
……
回到此次华为发布的人工智能专属芯片上,目前可以确定的消息是,华为不会直接售卖这款芯片,而是将其打包到整个人工智能开发框架之中,也就是上文提及的全栈全场景的人工智能平台。开发者或者企业,只有在这个平台上,才能使用华为的这款芯片,这也让未来华为人工智能的商业模式愈发和公有云绑定在一起,或者可以这么理解:华为希望依靠人工智能来实现快速追赶阿里云的目标。

从服务企业客户的经验上说,华为远胜于 GCP,不过两者在云服务上都处在相对早期的阶段,未来如何突破还是未知数。

而上周,AWS 又一次点燃了云端人工智能的热情。此次 AWS 发布了机器学习推理芯片 Inferentia,如果从功能上看,Inferrntia 并不支持机器学习的训练,而只能实现推理,但相比于 TPU 只支持 TensorFlow,几乎所有的主流机器学习框架都可以运行在 Inferentia 之上,这也意味着,AWS 又一次在技术炫酷与客户需求之间毫不犹豫地选择了后者。

至此,2018 年云端人工智能的布局已基本落幕,当人工智能需求从 API 服务逐步延伸到芯片层面的时候,你也可以明显感觉到行业对于人工智能的接受度越来越高,展望 2019 年,有三个趋势值得关注。

其一,云端机器学习平台之争会更加激烈。目前除了 AWS、Azure 和 GCP 的机器学习平台,阿里云也拥有 PAI 的机器学习平台,今年杭州云栖大会期间,这个平台也展示了其一系列新产品。

其二,从平台到服务,云计算公司的 AI 产品会越来越丰富。IBM 的 Wstson、Google Cloud 的视觉服务、微软的认知计算服务以及阿里云的「XX 大脑」,这些产品更多围绕大客户,也是面向更具实战意义的生产场景。

其三,专属芯片之争还会持续,这也将是一个长期战场。然而各大巨头的不同战略思考,也将左右着其芯片在「人工智能+云计算」中的地位。

综上,人工智能与云服务的结合正在形成一股强大的变革力量,它将让人工智能的影响范围进一步扩展到大企业,并有可能重新塑造云计算的格局版图。