本周你将看到:Google 人工智能新产品背后的野心、未来中国云计算的三巨头为何有华为?在人工智能领域,腾讯、百度为何与 Google、阿里云渐行渐远?点击这里查看过往内容。
巨头的每一小步,都可能是这个行业的一大步。
这句话来形容本周 Google 在人工智能领域的产品发布或许一定都不为过,根据 Google 官方博客的介绍,这个名叫 Cloud AutoML 的产品,是 Google 践行人工智能民主化的重要举措。
所谓「人工智能民主化」,是包括 Google、英特尔等巨头为推动一个新行业快速普及而采用的一系列工具产品、解决方案的总称,比如降低云端机器学习的费用或者推出预先训练(配置)好的机器学习模型,旨在让那些对人工智能感兴趣的用户快速布局相关产品。
此次 Cloud AutoML,则要进一步降低机器学习的门槛,正如产品名称的「Auto」所指,这个产品要让机器学习成为一种可自动化的简单产品,Google 官方博客进一步解释了这款产品的三个特点:
- 准确率更高;
- 速度更快,几分钟创建一个机器学习应用,一天搭建一个模型;
- 简单:图形界面加拖拽的操作方式。
另外,目前 Cloud AutoML 只支持图像识别,也只能通过云服务的形式购买,Google 也在 Youtube 上发布了这款产品介绍。
很显然,与其说这是 Google 人工智能布局,倒不如说是 Google Cloud 的又一个卖点。过去两年多的时间内,Google 一方面向人工智能公司转型,另一方面又不断加大对云服务的投入。对于 Google 的云计算来说,依靠机器学习、深度学习领域的加持,他们希望能在强大的 AWS 以及 Azure 中抢到一席之地。
更重要的一点,Google Cloud 不仅将李飞飞、李佳等深度学习大拿招致麾下,同时还从英特尔挖来了 Diane Bryant,后者在英特尔工作了 30 多年,曾出任英特尔 CIO,也长期负责英特尔最赚钱的数据中心部门,上述人事招募举措也让 Google Cloud 掌门人 Diane Greene 拥有了更大的资本去挑战 AWS。
从这个意义上去看,当我们被各家公司,尤其是巨头们所宣扬的人工智能产品如何如何时,其背后的潜台词还是在售卖云服务。
但在人工智能新的战场——中国,Google 倘若还想依靠云端机器学习的策略来推广其产品,几乎是个不可能的任务,至少目前,这片土地正在被 BAT 们所控制。
这周六出版的《经济学人》杂志专门报道了中国云计算的快速发展状况,这篇文章谈到了中国云计算发展的特殊国情:
What varies is how the technology is used—a result of the respective roots of cloud computing. In the West the first customers were startups and only later, bigger firms. In China the cloud grew out of consumer services, including Taobao, Alibaba’s e-commerce marketplace, and the online games offered by Tencent, the second-biggest online firm. As a result, many cloud services are not yet ready for complex, mainstream corporate applications, says Evan Zeng of Gartner, a research firm.
As these services develop, however, there is huge potential. In the West almost all firms have long had sophisticated inhouse information-technology systems, which many are hesitant to abandon. In contrast, the IT of most Chinese companies is underdeveloped. “They can jump directly to the cloud,” says Ji Xinhua, the founder and chief executive of UCloud, a smaller but fast-growing cloud provider.
《经济学人》还汇总了多个数据预测指出,未来中国云计算市场的格局将是阿里云、腾讯云与华为云三足鼎立。
这个排名里,华为的排名多少有点意外。要知道,华为云的独立部门 Cloud Bu 成立不足一年,更是隶属于华为企业级业务之下。在本周华为「故意」透露的内部数据中,华为云业务依然没有被单独列出,而是归入其他业务,其 2018 年的增长目标是 25 亿美元。
从另外一个数据对比维度去看,截止到 2017 年 11 月,阿里云在阿里巴巴 2018 财年第二季度的季度营收为 29.75 亿人民币,如下图所示,按照这样的增长速度,预计全年营收应该会突破 100 亿人民币。
如此看来,华为云的确在 2017 年给市场带来不小的变量。9 月份的华为全连接大会上,华为针对人工智能的发展趋势,发布了针对企业云服务的人工智能产品:Enterprise Intelligence。整个产品线包括基础平台服务、通用平台和场景解决方案,重点将图像(包括人脸识别、文字识别等)打造成行业解决方案。
Google、阿里云、华为将人工智能包装成为云服务售卖,最终面向的是公司、开发者以及政府部门。而百度和腾讯则走上了另外一条道路。
公众号「量子位」本周推出一篇介绍 BAT 人工智能生态的文章,分别从技术、平台、投资和场景的层面做了全面的梳理,这里重点谈谈百度和腾讯。
在陆奇执掌百度大权一年后,百度已经形成了两个围绕人工智能的开放平台:
- DuerOS:主打语音交互和智能机器人交互;
- Apollo:自动驾驶平台;
这两个平台都采用与行业合作伙伴赋能的形式。这一系列开放合作,尽管也是基于云的形式来提供,但很显然,百度的云服务——百度称之为「智能云」的地位非常尴尬,或者说,在陆奇的棋子里,云服务这盘棋还没有摆好。
而腾讯,虽然开始发力云计算,但在 2017 年的多个围绕人工智能的宣传中,始终看不到云的身影。而腾讯内部三大人工智能团队也和腾讯云没有多少联系。
「量子位」也发现:「腾讯无论做什么,都不会只投入一支团队。在人工智能上也是一样。」
目前,腾讯内部至少有三个人工智能团队:
- AI Lab
- 优图实验室
- 微信智聆
三个团队的研究多有重叠,各自则是针对不同的产品线。遗憾的是,「量子位」的这篇报道没有太好梳理这几个部门,相比之下,钛媒体去年一篇「游记」则比较清晰。
同样在本周,阿里巴巴和微软在一项全球阅读理解测试中战胜了人类,根据 FT 中文网的报道,这个测试数据集里,机器需要回答诸如「尼古拉•特斯拉(Nikola Tesla)是什么种族的人」、「亚马逊雨林有多大」的问题。
微软和阿里巴巴最后以微弱优势获胜。FT 中文网则进一步延伸了其意义:
在回答的精确匹配度上仅比人类的82.3%高出几个基点,但它们并列首位为美国和中国正在进行的人工智能军备竞赛提供了合适的象征。
而在这一周,中国人工智能领域又有新的玩家入场。前百度研究院院长林元庆创立的新公司 Aibee 完成一笔 1.65 亿元的天使轮融资,领投方是昆仲资本、包括真格、华创、红杉都有参与。
林元庆的野心很大。他要努力的方向,是将人工智能与传统行业相结合,提供端到端的解决方案。「机器之能」的这篇采访稿介绍了林元庆的思考逻辑:
举个例子,林元庆在 2017 年翻看 AI 技术论文时发现,关于「行人再识别」这项技术的论文突然多了起来。过去几年可能也就每年一两篇的样子,但今年 CVPR 突然就有了十几篇文章。
这是为什么呢?因为这项技术在安防应用领域变得非常重要。
「这项技术简单来说就是有两个摄像机,这边一个摄像头,走廊那头还有一个摄像头,你从这边走到那边,然后两个摄像头的图像传输对比一下最后确认是同一个人。就是这项技术,但以前没什么人研究的,而去年,AI 在安防领域额的应用突然变得火爆了,对技术的研究也就跟上来了。」
因此他认为,由技术商业落地中发现的新问题,去循环推动技术的进一步研究,是所有 AI 商业公司不断对自有核心技术进行升级与迭代的关键步骤。
但一个不可忽略的事实是,传统行业的需求和困境千差万别,以创业公司的体量,其面对的,不仅是 BAT 等巨头,更有各个细分行业中的「隐形冠军」;更重要的一点,2B 行业本质上也是一个服务业,如何平衡研发与销售、市场人员之间的关系,都是摆在这家创业公司面前最重要命题。
至少,我不看好。。
图像处理
我在这个小标题上并没使用图像识别,而是用了「图像处理」这样非常笼统的说法,原因就在于,「图像处理」涵盖的领域更广,其产业辐射效应也更大。
受益图像处理最大的毫无例外是巨头企业,包括阿里巴巴、亚马逊、Google、Facebook、苹果等,他们拥有海量数据和强大的研发能力,这也是深度学习所必须的两大要素。当然包括诸如 Airbnb、Dropbox、Pinterest 等创业新贵,也受益不少。
2018 年 1 月,阿里巴巴 iDST 团队在机器视觉算法排行榜 KITTI 比赛中,获得行人检测单行冠军,同时在行人再识别数据集 Market1501 中,iDST 的首位命中率也提升至 96.17%,位居世界第一。
与静态的网页图像处理需求不同,这两个比赛所考验的,是实际场景里的图像处理技能。以 KITTI 为例,这是一个全球范围内自动驾驶场景下的计算机视觉算法评测比赛,检测交通参与对象(机动车、非机动车、行人)的位置,并进行追踪。
这两个成绩展示了阿里巴巴在图像处理上的强大技术储备,两项技术对应着自动驾驶道路目标检测和新零售中的客户锁定,考虑 iDST 在阿里巴巴体系里的重要位置,这些技术的落地也指日可待。
对于Google 和亚马逊而言,他们更希望将图像处理能力作为可以快速输出的产品,普通开发者可以在 Google Cloud、亚马逊的 Rekognition 上获得相应的 API,快速接入相关服务。
在 Facebook,用户每天会上传至少 3.5 亿张照片,如何快速处理这些照片成为摆在 FB 眼前的重要工作,FB 人工智能实验室官方博客上介绍了相关研究进展,针对图像、视频的实时处理,这篇文章也进一步介绍了技术实现的细节,包括架构和模型的优化。
由于公司的保密文化,苹果长期以来没有披露更多关于深度学习方面的研究进展。但自 2016 年开始,苹果逐步开放了相关信息,比如开设了专门的机器学习博客,并时常更新研究进展。在一篇讨论如何通过深度网络实现设备上人脸检测时,苹果的研究者们展现了如何在低延迟和低功耗上实现平衡,毕竟,基于设备的人脸检测,比如 iPhone X 上的 Face ID,与过往在云端的检测是完全不同的。
巨头之外,云服务创业公司 Dropbox 也在尝试利用深度学习实现 OCR,从而完善自己在移动设备的文档扫描功能,这篇文章介绍了其实现的原理。而依靠图像起家的 Pinterest,则将图像处理能力「内化」到产品体验的方方面面,在这篇官方介绍中,你会感受到哪怕是一个细节的体验背后,都有深度学习带来的巨大进步。
自然语言理解
自然语言理解也是一个很宏大的概念,包括机器翻译、文本分析、问答系统等等都可以归入这一类。总而言之,自然语言理解是人机交互的一个重要方面,也是互联网公司关键的重点。
在被引入深度学习之后,机器翻译的准确性直线上升。Google 和 Facebook 在 2017 年展示了在机器翻译上强大技术能力,两家公司都使用一种叫做「神经机器翻译」的方法来重建「巴别塔」,Google 发布了新版翻译应用,而 FB 允许用户直接在主页翻译朋友的状态。
智能音箱/语音助理也是自然语言理解的重要战场,这个战场已经异常拥挤,亚马逊是先行者,但 Google、苹果、阿里巴巴、百度先后加入战局,相关的研究成果包括百度提的 Deep Speech、Google 的语音交互突破,苹果在 Siri 上的突破以及深度学习对于 Alexa 的意义,这些技术的进步会成为各家语音交互体验的亮点。
在企业级市场,Salesforce 借助 2016 年收购的 MetaMind 团队,开始发力自然语言理解的研究,并将其作为 Salesforce 核心人工智能产品 Einstein 的一部分,其中有一项功能是利用循环神经网络算法和强化学习,最终实现文本的自动摘编汇总。
强化学习
作为 2017 年《MIT 商业评论》评选的年度十大技术之一,强化学习曾在 AlphaGo 击败各路围棋高手的对弈中发挥了重要作用。强化学习的基本原理是一种和环境交互过程的「学习」过程,这种动态的学习过程非常适合在一些没有特定规则、实时反馈的场景中,比如工业机器人或自动驾驶。
不过,鉴于强化学习还处在初期阶段,目前这个领域玩家还不够多。
正因为 AlphaGo,DeepMind 在强化学习领域的研究才被更多人知晓,也称为整个强化学习领域研究的领军公司,他们的官方博客都经常介绍最新的研究进展。
与 DeepMind 很类似,Elon Musk 资助的 OpenAi 也一家非典型的人工智能公司。这家公司践行的理念是创造更安全的通用人工智能,其中一个研究方向就是强化学习。
Bonsai 是一家位于伯克利的创业公司,通过搭建一个平台来售机器学习,特别是强化学习的模型,其官方博客也介绍了一些进展。
尾巴
正如我在本周一篇长文《人工智能的「远方」与「苟且」》中所言,关于远方风景的描述精彩纷呈,但当下这些「苟且」问题也颇为突出。深度学习的突飞猛进离不开互联网提供的海量数据以及摩尔定律作用下的低廉计算成本,但深度学习绝非人工智能的未来。
那么,这个未来又是什么呢?我不知道,我唯一可以确定的,则是这个未来场景里,一定是研究、商业共同作用的结果,失去了那一方,都会再次陷入「寒冬——盛夏——寒冬」的万劫循环之中。