很幸运,在区块链的「助攻」下,人工智能暂时摆脱了聚光灯的关注,也让我们可以更理性地去观察这个过去几年被认为可以改变世界的技术。
我曾不止一次抛出下面这张图,向更多人介绍人工智能、机器学习与深度学习的区别和联系。更重要的一点则是,这几年所谓「人工智能」的重新复苏,本质是深度神经网络算法突破后带来的显著变化。
这个变化影响深远,Google CEO Sundar Pichai 就坦言:
The last 10 years have been about building. A world that is mobile first. In the next 10 years,we well shift to world that is AI first.
亚马逊创始人贝佐斯这样认为:
it’s hard to overstate how big of an impact it’s going to have on societ in the next 20 years.
这些大佬及其背后巨头公司的推动,让人工智能、机器学习、深度学习迅速进入主流话语之中。正如上文所言,当下的「人工智能」,更准确的说法,应该是深度学习,也就是说,这些巨头都将深度学习作为面向未来的重要技术。
其原因也不难理解,深度学习在语音、图像以及文本处理中拥有不小的优势,尤其适合在互联网这样巨大数据库的维度里去完成上述任务。而语音、图像(视频)和文本,则是互联网上广泛流通的海量信息。当互联网公司看到算法可以帮助他们实现上述信息的有效处理时,也不断加大资金和人才投入,并发动了更大规模的舆论战役,最终形成了一轮深度学习炒作热潮。
接下来,我们不妨从当下巨头和几家火热的创业公司入手,看看以深度学习为代表的人工智能,到底如何让这些公司受益。
图像处理
我在这个小标题上并没使用图像识别,而是用了「图像处理」这样非常笼统的说法,原因就在于,「图像处理」涵盖的领域更广,其产业辐射效应也更大。
受益图像处理最大的毫无例外是巨头企业,包括阿里巴巴、亚马逊、Google、Facebook、苹果等,他们拥有海量数据和强大的研发能力,这也是深度学习所必须的两大要素。当然包括诸如 Airbnb、Dropbox、Pinterest 等创业新贵,也受益不少。
2018 年 1 月,阿里巴巴 iDST 团队在机器视觉算法排行榜 KITTI 比赛中,获得行人检测单行冠军,同时在行人再识别数据集 Market1501 中,iDST 的首位命中率也提升至 96.17%,位居世界第一。
与静态的网页图像处理需求不同,这两个比赛所考验的,是实际场景里的图像处理技能。以 KITTI 为例,这是一个全球范围内自动驾驶场景下的计算机视觉算法评测比赛,检测交通参与对象(机动车、非机动车、行人)的位置,并进行追踪。
这两个成绩展示了阿里巴巴在图像处理上的强大技术储备,两项技术对应着自动驾驶道路目标检测和新零售中的客户锁定,考虑 iDST 在阿里巴巴体系里的重要位置,这些技术的落地也指日可待。
对于Google 和亚马逊而言,他们更希望将图像处理能力作为可以快速输出的产品,普通开发者可以在 Google Cloud、亚马逊的 Rekognition 上获得相应的 API,快速接入相关服务。
在 Facebook,用户每天会上传至少 3.5 亿张照片,如何快速处理这些照片成为摆在 FB 眼前的重要工作,FB 人工智能实验室官方博客上介绍了相关研究进展,针对图像、视频的实时处理,这篇文章也进一步介绍了技术实现的细节,包括架构和模型的优化。
由于公司的保密文化,苹果长期以来没有披露更多关于深度学习方面的研究进展。但自 2016 年开始,苹果逐步开放了相关信息,比如开设了专门的机器学习博客,并时常更新研究进展。在一篇讨论如何通过深度网络实现设备上人脸检测时,苹果的研究者们展现了如何在低延迟和低功耗上实现平衡,毕竟,基于设备的人脸检测,比如 iPhone X 上的 Face ID,与过往在云端的检测是完全不同的。
巨头之外,云服务创业公司 Dropbox 也在尝试利用深度学习实现 OCR,从而完善自己在移动设备的文档扫描功能,这篇文章介绍了其实现的原理。而依靠图像起家的 Pinterest,则将图像处理能力「内化」到产品体验的方方面面,在这篇官方介绍中,你会感受到哪怕是一个细节的体验背后,都有深度学习带来的巨大进步。
自然语言理解
自然语言理解也是一个很宏大的概念,包括机器翻译、文本分析、问答系统等等都可以归入这一类。总而言之,自然语言理解是人机交互的一个重要方面,也是互联网公司关键的重点。
在被引入深度学习之后,机器翻译的准确性直线上升。Google 和 Facebook 在 2017 年展示了在机器翻译上强大技术能力,两家公司都使用一种叫做「神经机器翻译」的方法来重建「巴别塔」,Google 发布了新版翻译应用,而 FB 允许用户直接在主页翻译朋友的状态。
智能音箱/语音助理也是自然语言理解的重要战场,这个战场已经异常拥挤,亚马逊是先行者,但 Google、苹果、阿里巴巴、百度先后加入战局,相关的研究成果包括百度提的 Deep Speech、Google 的语音交互突破,苹果在 Siri 上的突破以及深度学习对于 Alexa 的意义,这些技术的进步会成为各家语音交互体验的亮点。
在企业级市场,Salesforce 借助 2016 年收购的 MetaMind 团队,开始发力自然语言理解的研究,并将其作为 Salesforce 核心人工智能产品 Einstein 的一部分,其中有一项功能是利用循环神经网络算法和强化学习,最终实现文本的自动摘编汇总。
强化学习
作为 2017 年《MIT 商业评论》评选的年度十大技术之一,强化学习曾在 AlphaGo 击败各路围棋高手的对弈中发挥了重要作用。强化学习的基本原理是一种和环境交互过程的「学习」过程,这种动态的学习过程非常适合在一些没有特定规则、实时反馈的场景中,比如工业机器人或自动驾驶。
不过,鉴于强化学习还处在初期阶段,目前这个领域玩家还不够多。
正因为 AlphaGo,DeepMind 在强化学习领域的研究才被更多人知晓,也称为整个强化学习领域研究的领军公司,他们的官方博客都经常介绍最新的研究进展。
与 DeepMind 很类似,Elon Musk 资助的 OpenAi 也一家非典型的人工智能公司。这家公司践行的理念是创造更安全的通用人工智能,其中一个研究方向就是强化学习。
Bonsai 是一家位于伯克利的创业公司,通过搭建一个平台来售机器学习,特别是强化学习的模型,其官方博客也介绍了一些进展。
尾巴
正如我在本周一篇长文《人工智能的「远方」与「苟且」》中所言,关于远方风景的描述精彩纷呈,但当下这些「苟且」问题也颇为突出。深度学习的突飞猛进离不开互联网提供的海量数据以及摩尔定律作用下的低廉计算成本,但深度学习绝非人工智能的未来。
那么,这个未来又是什么呢?我不知道,我唯一可以确定的,则是这个未来场景里,一定是研究、商业共同作用的结果,失去了那一方,都会再次陷入「寒冬——盛夏——寒冬」的万劫循环之中。