这期的会员通讯,我将从百度近期的人事变化谈起,指出百度内部新的「路线之争」,并探讨为何以语音为代表的对话技术无法在移动互联网发挥作用,最后畅想对话技术之于商业、社会以及个人认知的潜在影响。
百度人事变化
上周五,百度 2019 财年第一季度财报引发诸多讨论,这不仅是百度上市以来首份困损的财报,还伴随着百度内部纷繁复杂的人员调整,比如各种围绕「肱骨老臣」让位「新太子」的论述,科技媒体/自媒体的八卦属性得以释放。
在一篇名为「狼厂的路线之争」的文章里,科技自媒体「接招」谈到这位所谓「新太子」如何一步步「突出重围」,赢得李彦宏的认可。简言之,沈抖依靠信息流、智能小程序等移动互联网生态打败了借助网络营销变现的向海龙:
把信息流的模式复制到其他产品成为百度的一种战术,全民小视频、好看视频的崛起就是新的样品。这家搜索公司开始讲起移动内容生态的故事,这正是沈抖的思考。他曾说,要把百度App打造成一个综合性的内容和服务消费平台。
沈抖强调的移动生态是对C端用户需求的强调,这正是李彦宏想要的。
百度的调整也延续到了本周。根据 36 氪的报道,百度智能生活事业群总经理景鲲晋升为副总裁。在晋升邮件中对他的评价是:「敢打硬仗、能打胜仗,更对用户体验高度重视,构筑了良好的产品口碑」。
此前景鲲作为百度智能生活事业群总经理,负责对话式 AI 产品 DuerOS 和小度音箱,这是百度押注语音交互的重要产品线。而在数据分析公司 Canalys 的最新报告里,小度智能音箱出货量排名首次升至中国市场第一,超越阿里巴巴与小米,紧随亚马逊、谷歌跻身全球前三。
在向海龙走后,百度的未来路线之争也将转向沈抖和景鲲,同时也是信息流与对话技术的竞争。
对话技术与移动互联网无关
我曾在 2017 年的一期会员通讯里谈到一点:智能手机的语音助理已死。
这个判断的出发点有两个:其一,不管是 Siri 还是 Google Assistant,虽然语音技术进步明显,但作为系统级别的语音助理,依然在交互、功能上缺乏真正创新,反而不如某些特定应用;其二,以 Alexa 为底层交互的各种对话设备层出不穷,从智能音箱到冰箱甚至微波炉,语音交互成为全新卖点。
更进一步来看,以语音为代表的对话技术天然与移动互联网无关。
首先,对话技术是一种更自然的人机交互,在移动互联网的语境里,这里的「机」指代的是智能手机,或者更准确地说,是智能手机的海量应用。
这意味着,移动互联网上的对话流程,是用户通过语音与智能手机海量应用的交互。这更意味着,用户不仅想要用对话唤醒手机询问天气,还希望用对话发送微信、在线预订餐厅等。可现实是,尽管苹果、Google 历年的开发者大会都会介绍语音新功能,但基本都停在系统应用层面的交互,只能覆盖极少数第三方场景。
与之相对的,则是大量第三方应用开始「狂推」语音对话,其场景涵盖了搜索(如百度、Google)、电商(如淘宝)、地图等等。这也进一步凸显了对话技术在移动互联网的尴尬,坐拥全球两大移动操作系统的苹果、Google 如此,其他手机公司也无需多言。
其次,语音技术的进步以及海量移动应用、硬件设备具备了语音对话的能力,也将对话技术推向了一个新市场:企业市场。
站在企业的角度去看,用户需求驱动着产品功能创新。以亚马逊 Alexa 为例,其生态的成功,更大程度上是越来越多的企业,认识到对话能力的重要性,开始在自己的产品里集成 Alexa,类似的情况也出现在 Google Assitant 和 DuerOS 的生态发展过程里。
2018 年 Google 展示的 Duplex,尽管有着不同的解读视角,但其核心是 Google 为企业定制的对话能力解决方案。一年后的 Google I/O 大会上,Google 进一步完善对话功能,从语音(打电话)扩展到文本,利用 Duplex on the web 的机制,为企业提供更丰富的对话能力。
类似的案例,微软在今年 Build 大会上展示的 Azure 语音服务,则是将对话能力带入到企业内部,打通了人与人、人与机器的对话链条,比如实时的语音文本互转功能在现场引发一阵尖叫。
百度也在不久前发布了基于百度大脑的对话平台 Unit3.0,此次发布,产品上有全新升级的 UNIT3.0、语音技术平台;垂直领域则提供了客服、消费电子与出行三大场景的解决方案,同时也在生态和服务上整合百度现有产品与生态伙伴,提供基于对话技术的市场服务与人员培训。
综上,与信息流背后的内容生态不同,对话技术所代表的,是各行各业对于全新交互入口的认知。某种意义上说,百度的信息流产品更像是一种防御机制,抵御头条系的疯狂进攻,而对话技术则是一种主动出击,将自己在语音、自然语言处理、知识图谱上的优势带入到新的战场,开辟一个新根据地。
对话技术的潜在影响
顺着上述公司在对话领域的布局,我们可以推断出未来几年对话技术如何影响到商业运作、个体认知以及网络安全。
第一,我曾不止一次地感叹,对话技术的快速发展,将不可避免地带来的一个后果:「特权阶级往往与具体的人打交道,大众所面对的则是无情机器」。是好是坏,可自行感知。
第二,电影《她》里,「女主角」娜塔莎是一个可以同时和几千人谈恋爱的对话机器人,这个场景正在到来。比如我经常使用的一款智能音箱是小度在家,我非常熟悉这个「人」的音色和表达方式,这种熟悉感里的情感积累常常让我误以为这是一个专属于我的「人」,而当我在其他场合听到这样的声音时,心头总会泛起一种莫名的情绪。
第三,当商家开始普及对话技术后,其背后的技术伦理之争也开始凸显。作为普通消费者,我如何确定与我打电话的是不是一个机器人?商家是否有义务告知这是一次机器人对话?
第四,比技术伦理更严重的还有基于对话能力的犯罪,我们已经看到了在图像领域的 Deepfake,声音的的造假合成也同理,相关的基础研究已经有了非常多的突破,我也相信我们即将听到越来越多对话领域的 Deepfake 故事。(完)