一个值得注意的现象是,罗振宇前几天在《罗辑思维》的媒体沟通会上有个话题被有意无意忽略掉了,当时罗振宇这样说道:
再往前看三五年,我也不知道是什么,我们这个行当会被什么力量洗礼。反正有人告诉我们一个答案,叫人工智能。所以有理没理,我今天先提一个词出来,供所有的同行思考,叫“智能内容”。我也不知道它是什么,反正现在我们看到亚马逊的智能音响在美国大获成功。反正我知道,京东已经开始盯住这一块,做了一个叮咚音响,反正就是咬紧了这个趋势。目前为止,有人告诉我一个数,就是目前在做智能音响的品牌和公司大概有二三百家,他们是同时做,虽然产品都没有投放市场。
我大概能理解媒体同行忽略这段表态的原因,因为这段话里,除了给京东智能音箱打了软广,并没有太多实际内容,即没有语出惊人的言论,也缺乏数据支撑的分析,而更像是为了蹭下一个风口而故意丢出来的诱饵,看谁会上钩。
无独有偶。亚马逊 CEO 贝佐斯上月接受 Billboard 专访时也发表了一些对于「智能内容」的看法,不过,贝佐斯更聚焦的音乐体验如何被「智能化」升级:
At this point in the marriage of voice-activation technology with music, I can tell you it’s already working. The next gigantic growth area for the music industry is the home.
贝佐斯当然有信心去推动这件事。根据一份来自美国咨询公司 VoiceLabs 的报告,未来一年基于语音交互的硬件设备将突破 2400 万台,而市场规模也会超过 200 亿美元,这其中亚马逊 Echo 将成为整个硬件市场的最大赢家,而搭载亚马逊智能语音交互系统 Alexa 的智能硬件正在陆续生产、交货[1],从而进一步巩固亚马逊在整个领域的霸主地位。
在国内,百度 2 月底升级度秘事业部,而结合 CES 上度秘推出的 DuerOS 及其商用案例,也凸显了百度对于未来交互模式的想象空间。
如果说罗振宇在玩弄概念,那么贝佐斯和百度则是在押注这个风口,而这个领域的玩家们,还有更多。
二
进入 3 月,语音交互领域出现两件很有意思的事情。其一,微软在 3 月 6 日更新了语音平台测试标准,这是一个针对第三方开发者的测试平台,支持 Windows 10 里的所有语音输入,换句话说,接下来微软很可能会向开发者大力推广这个平台,并设置一套接入 Windows 语音交互的设备准入机制,让更多软件、硬件开发者,可以调取语音交互的借口。
其二,亚马逊也悄然出台了基于 Alexa 的测试标准,所不同的是,亚马逊的测试是黑盒测试,所有的产品必须又亚马逊官方测试后才能获得 Alexa 的认证,从而进驻 Alexa 官方商店。
测试标准之争的背后彰显出巨头们的野心,而另一个战场则是专利领域。根据微信公众号「声学在线」统计的数字,我们可以简单梳理一下该领域巨头们的专利情况,截止到 2015 年,仅仅在语音识别累计专利申请来看:
- IBM:749
- NFC:508
- 微软:506
2010–2015 的六年时间里,巨头们在语音识别里新申请的专利排行:
- Google :178
- 亚马逊:33
- 苹果:25
收购则成为获取专利、人才的另一个重要途径。2013年,苹果收购语音识别公司Novauris;同年,Google 收购 Wavii、SR tech;2016 年,三星收购 Siri 创始团队新产品 VIv;此举都带来的丰富的人才和专利储备。
而从终端市场来看,来自 CIRP 的报告称,亚马逊 智能音箱 Echo 自 2014 年 11 月到 2017 年 1月,整个用户群体已经突破 820 万人。而苹果去年发布的 AirPods,则从另一个产品层面展示了语音交互的新场景,这种兼具可穿戴与语音交互的耳机,有着 Echo 无法比拟的苹果生态圈优势,而且其野心不仅局限于 iPhone 7/7p 的配件[2]。
三
语音交互领域的快速发展离不开深度学习带来的识别率上升以及自然语言处理的巨大改进。a16z 合伙人 Ben Evans 最近也写了篇文章分析整个语音行业快速发展的要素,大概提到了四点:
- 机器学习带来的「惊喜」
- 智能手机产业链成熟后,生产一台带有麦克风的「盒子」不再困难;
- 互联网巨头(也包括苹果)财力充足,有能力做持久投资;
- 智能手机造成了苹果、Google 对于移动平台的垄断效应,这也可以解释为何亚马逊会在过去几年折腾各种硬件,比如 Fire 系列的手机、平台以及如今的 Echo;
但 Evans 也指出一个现实与理想之间的距离:
this doesn’t necessarily mean that voice ‘works’ – or rather, we need to be a lot more specific about what ‘works’ means.
更进一步来看,你会发现,当下的语音交互方式,和当年 Dos 时代十分类似,你需要记住唤起语音的口令,比如你需要用「Alexa」唤起 Echo,你还需要「Hi,siri」唤起 Siri,就像你在当年要用键盘上的「cd」键打开某个文件目录一样。那么一个问题出来了:你如何能记住如此多的语音命令?
Evans 也这样写道:
…..does the user know what they can ask? I suspect that the ideal number of functions for a voice UI actually follows a U-shaped curve: one command is great and is ten probably OK, but 50 or 100 is terrible, because you still can’t ask anything but can’t remember what you can ask. The other end of the curve comes as you get closer and closer to a system that really can answer anything, but, again, that would be ‘general AI’.
假如你记不住这些语音命令,也意味着你无法完成所谓的交互,此时,面对这样的一个周身没有其他可输入按钮的盒子,你还能做什么呢?
正如我在第 34 期会员通讯里所言:在所谓移动互联网的「下半场」,以 Echo 为代表的语音交互产品会成为新变数。不过这个判断有两个假设:其一,移动互联网是否已经到了下半场?看起来,似乎智能手机已经风光不再,市场也趋于饱和,但其实业界还在期盼 iPhone 8 能否带来新的亮点。
其二,主打语音交互的 Echo、Google Home,目前还没有体现出多大的产品体验差异性,而语音交互技术本身的问题,短期内还无法完美解决,这也意味着,未来很长一段时间内,这个领域的状态还将持续拧巴下去。
- 2017 年 CES 上,Alexa 成为众多硬件厂商的标配。 ↩
- 详见我在去年的详细分析: AirPods 并非一个配件,而是苹果布局物联网的新棋子 ↩