一
周二的时候,首届 WAVE SUMMIT 2019 深度学习开发者峰会在北京举行,这是由深度学习技术及应用国家工程实验室和百度共同举办的会议,主要议题则是探讨深度学习的重要性以及应用价值。
身兼百度高级副总裁和深度学习技术及应用国家工程实验室主任的双重身份,王海峰在主旨演讲里为深度学习的发展定了基调:「深度学习框架是智能时代的操作系统,同时深度学习正在推动人工智能进入工业大生产阶段」。
这句话包含了两层意思:其一,在深度学习领域,框架的重要性不言而喻,如果类比操作系统,深度学习框架也是起到了一个承上启下的连接作用,往下是芯片以及其他操作系统,往上则将业务和行业应用对接在一起。
王海峰如此这般强调深度学习框架的作用,其实也是在宣传百度深度学习框架 PaddlePaddle(中文名为「飞浆)」,公开资料显示,PaddlePaddle的研发始于2013年,伴随着百度广告、文本、图像、语音等训练数据的快速增长,以及百度外卖、搜索、无人驾驶领域的算法要求,百度内部研发了Paddle(Parallel Asynchronous Distributed Deep Learning)这个多机并行GPU这个训练平台,并将其在 2016 年 9 月正式开源,也是目前国内唯一开源的深度学习框架。
其二,所谓「深度学习正在推动人工智能进入工业大生产阶段」,则是强调了深度学习的落地能力,尤其是在工业领域的落地。王海峰列举了深度学习如何改进百度地图的路线规划以及基于遥感影像数据,监测城市土地使用情况的案例。
正是基于这样的技术判断,百度此次还首次对外公布了 PaddlePaddle 全景图,包括核心框架、工具组件和服务平台等,也发布了面向自然语言处理的 PaddleNLP、面向视频的识别工具、面向模型压缩的 PaddleSLim等。
二
2017 年开始,陆奇新政下的百度,会在每年 7 月举办 AI 开发者大会,集中展示百度在 AI 领域的技术和解决方案,2018 年 4 月陆奇离职,但 7 月份的 AI 开发者大会依然在 AI 赋能开发者的议题上做了新的尝试。
而在 2019 年 4 月,百度将深度学习单独拿出来放在一个会议上举行,并冠以「首届深度学习峰会」,也进一步凸显了百度对于深度学习以及 PaddlePaddle 的重视程度。
如果将此次峰会放在行业大环境里去看,或许也能理解其背后的动机。
首先,上月 3 月 27 日,ACM 宣布了 2018 年图灵奖得主。深度学习领域三位杰出学者 Yoshua Bengio, Yann LeCun, 以及 Geoffrey Hinton 获得了 该年度年度的图灵奖。
图灵奖作为计算机领域的「诺贝尔奖」,与其说看谁是获奖者,倒不如看这些获奖者所代表的领域。以今年的情况来看,尽管过去几年来包括强化学习、生成对抗网络(GAN)有不少突破,但从技术成熟度以及工业应用效果来说,上述三位学者——无论是 Geoffrey Hinton 之于 Google 还是 Yann LeCun 对于 FB——他们都将深度学习引入到工业领域,并证明了其拥有「改变世界」的能力。
其二,而在学术领域,根据去年年底斯坦福大学发布了《2018年度全球AI报告》,神经网络( Neural Networks )论文增长的复合年增长率(CAGR)在 2014 年只有 3%,而到 2017 年却达到 37%。
在地区分布里,欧洲一直是最大的 AI 论文出产地,2017 年 Scopus 数据库中 28% 的 AI 论文源自欧洲。与此同时,尽管 2008 年左右中国 AI 论文数量出现波动,但在 2007 年至2017年间,中国发表的论文数量增长了150%。
事实上,现在随意在 Google 用中英文搜索「中国 AI 论文数量」或「中国深度学习论文数量」都可以看到中国在这个领域的数量统治力。
第三,当深度学习证明了可用性,科技巨头们希望将技术和开发者留在自己的平台。比如 Google 和百度相继开源了深度学习框架 TensorFlow 与 PaddlePaddle,也是希望开源的形式获得开发者的认可,从而形成自己的 AI 生态。
与此同时,过去的 2018 年,「端到端」、「一站式」等词汇也开始频繁出现在科技公司的大会上,华为在 2018 年推出了「全栈全场景」的 AI 开发平台,AWS 也在年末强化了其 AI 平台的「完整性」,其架构如下图所示。
类似的平台,也在本月的 Google Cloud Next 上出现了。
这些开源平台、端到端的开发平台,旨在降低机器学习、深度学习的门槛。工具层面,大量 AutoML 的出现,让机器学习越来越成为一种可以即插即用的解决方案;服务层面,包括 Google、亚马逊以及百度,都提供了基于云端的机器学习服务,开发者甚至可以直接通过浏览器完成相关工作。
三
上述三个行业背景也构成了百度 PaddlePaddle 此次更新的意义:利用行业热点,争取更多开发者,尤其是中国开发者的认可和支持,搭建中国最大的深度学习开发者应用生态,或许才是百度最大的目的。
但这条路有众多不确定性。其一,深度学习自身有者天然的缺陷,它只是一种机器学习的方式,而不是最正确的方式或者终极方式。
这也意味着,未来几年可能有其他类型的机器学习方式替代其位置,事实也的确如此,比如RL、GAN 的应用场景也开始变多,这也要求这些科技公司们必须将新的机器学习技术纳入到自己的平台上,才能适应学术界的需求。
其二,如果说技术发展还算简单的话,那么将深度学习应用到工业场景里,则是一件更困难的事情。
一方面,前期的数据处理成本高昂,但没有数据,也就没有智能;另一方面,不管是深度学习还是其他机器学习,目前还局限在单一痛点问题上,如何将单一场景延伸出更多的需求,也是摆在全行业面前的共同挑战。
更重要的是,不管是国外的 Google 还是国内的百度,将深度学习推向工业界这件事显然已经成为一个 2B 的生意。目前,Google 已经将所有的 2B 生意放在 Google Cloud 架构里,负责 Google cloud AI 的 Andrew Moore 表示,Cloud 部门不再对 AI 研究有兴趣,他们更关注的是 AI 产品的落地。
如今,百度 PaddlePaddle 的工业化落地究竟由谁来主导还没有明确的定义,考虑到百度云计算还缺乏竞争力,或许未来还会有专门的事业部来推进。其官网信息显示,目前工业应用落地案例只有 7 个,而且更多的是作为单点技术突破,没有形成解决方案级别的产品。
上述这些不确定性,既有深度学习自身的缺陷,也有百度内部的整合问题,但作为国内唯一一款深度学习开源框架,PaadlePaadle 未来在技术、商业之外,还会有一定的政治价值,其进化路径也值得持续关注。(完)