题图来自 Unsplash(Matthew Henry)
上周,可能是有史以来最严格的数据隐私保护法规《一般数据保护规定》(下文统一称之为 GDPR)正式生效。这个法律对于数据收集、使用、流通都有了详细的规定,并明确了数据各方的权利和义务,比如作为数据所有者的个体,即便你已经同意了互联网公司可以收集你的数据,还可以继续要求这些公司:
- 访问并修正错误
- 删除个人数据
- 反对处理数据
- 导出数据
正如这个法规名字里的「一般」两字,GDPR 像是一个大篮子,将欧洲的数字经济参与者们,尤其是涉及到数据的参与者——本土公司、跨国巨头、个人开发者、个人消费者——纳入其中,并为不同的参与者们提供了新的角色设置。
不过,考虑到该法律才刚刚实施,我们并不能过于武断地去给欧盟数字经济(移动互联网、人工智能)的未来判死刑,但毫无疑问,在数字经济与全球化的现实语境下,这个法规对欧盟以及全球数字的影响将是深远的。
以新闻行业为例,GDPR 的巨大挑战也是对于其商业模式的直接冲击。过去十几年里,新闻行业依靠数字广告的精准投放苟延残喘,如今,这个变现渠道在欧盟地区已然失效。
包括 《洛杉矶时报》和《芝加哥论坛报》都直接拒绝欧洲用户使用,同时,两家报纸所属集团 Tronc 的多个手机应用也在欧盟市场下架。
二
而 GDPR 对机器学习的冲击可能是致命的。
一个必须要明确的前提:GDPR 并非是禁止欧盟地区的机器学习行为。
但显然,欧洲的机器学习从业者们将面临巨大的困难。DDPR 禁止所谓「自动化决策(automated decision-making)」的使用,并将其定义为只要数据决策过程中没有人为参与,就属于自动化决策,比如很多机器模型自动化生成的用户模型概要,就已经涉嫌违法。
而如果要合规,至少要从以下三个方面入手:
- 基于合同,比如通过其他公司的合同授权;
- 基于其他法律授权;
- 基于数据所有者(个体消费者)同意;
其中第三项或许是最简单,也是最繁琐的,正如上文提到的数据所有者所拥有的权利,他/她当然可以同意其数据用于机器学习,还可以随时要求取消,这种动态的数据许可无疑将大大增加机器学习从业者的负担,而一旦没有足够的数据,机器学习的优势也消失殆尽。
三
如果说机器学习仅仅是人工智能的一个狭小领域,GDPR 更多还是对其技术实现层面的影响。那么, DDPR 对于云计算,特别是公有云的影响,则将会涉及商业模式层面。
通信行业资深从业者宁宇在钛媒体撰文指出了这种危险:
为了更全面地进行数据的安全保障,GDPR对数据的控制者(如云计算的客户)和数据的处理者(如云服务提供商)提出了同样的要求,这一政策的本意是让接触数据的各个企业都承担起数据安全保护的责任,但是云计算是由多层次组成的,强调开放性和企业之间的自由组合与协作。这二者放在一起,就产生了矛盾冲突。
宁宇列举了几个案例,比如以公有云三大服务模式来看,GDPR 将 IaaS、PaaS、SaaS 三个服务的数据使用做了割裂式的规定:
GDPR要求,如果没有数据控制者授权,数据处理者不应聘用另一个处理者;如果数据控制者反对,那么数据处理者就不能将数据提供给第三方。那这是不是意味着:PaaS平台发展任何一个用户、开发任何一个应用,都必须事先征得IaaS厂商的同意?
再比如:
GDPR要求,数据处理者必须在收到数据控制者书面通知后才可以处理数据。这条规定在云服务场景中几乎是不可能实现的:得不到上层应用的书面通知,底层的基础设施和平台就不能对数据进行处理?
宁宇也注意到一点,在上周 Gartner 的公有云 IaaS 魔力象限里,入围的 6 家公司,亚马逊、微软、Google、阿里云、IBM 和 Oracle,没有一家是欧洲公司,那么,他们未来在欧洲的云业务会呈现出怎样的局面?会不会为欧洲的云服务模式提供更多个性化的定制?都将是观察 GDPR 后续影响的重要入口。
四
有趣的是,几乎在欧盟地区最严格的数据保护开始实施的前夕,发生在美国和中国的两件事情也格外值得关注。
在美国,波特兰的一位女士告诉位于华盛顿的 KIRO 7 电视台,他们家的亚马逊智能音箱 Echo 录制了她和丈夫的对话,并将这段对话随机发给了她丈夫公司的同事,你可以在这里查看这个这段视频。
这是颇为诡异的事件,亚马逊随后的调查中,通过调取 Echo 的设备日志,也证实了该事件属实。亚马逊在发给《纽约时报》的声明中写道:
“Echo woke up due to a word in background conversation sounding like ‘Alexa,’Then, the subsequent conversation was heard as a ‘send message’ request. At which point, Alexa said out loud ‘To whom?’ At which point, the background conversation was interpreted as a name in the customer’s contact list. Alexa then asked out loud, ‘[contact name], right?’ Alexa then interpreted background conversation as ‘right’. As unlikely as this string of events is, we are evaluating options to make this case even less likely.”
亚马逊并未给出更详细的解释,但考虑到这位用户家里有多台 Echo 设备,其根源很可能就是当你在卧室说话时,厨房的 Echo 被唤醒,并错误地将其当作「发给xxx」的指令,从而自动发送。
但显然,上述对于机器「自动化决策」的解释缺乏证据,也几乎无法杜绝。如果放在 GDPR 的框架下,数据处理者(亚马逊)在没有得到数据所有者(用户)的同意下私自使用了数据(发送给朋友),已然触犯了法律。
五
另一个不得不提的案例发生在中国。
我曾在不久前在朋友圈感叹道:「人脸识别公司太多,(中国人)人脸快不够用了。」这是对中国人脸识别公司发展之快、数量之多的最好注解。
与之呼应的则是,中国人脸识别的海外探险已经开始。美国在线媒体 QZ 提到,津巴布韦政府购买了来自广州的云从科技的人脸识别技术,用于公共场所的人脸识别。
但中国的人脸识别应用场景还在无限制的扩展中。《新京报》的一篇报道中,杭州第十一中学成为被人工智能,尤其是人脸识别所改变的学校典型,不禁利用人脸识别改变了过往点名、打卡,还将人脸识别技术集成到课堂管理之中:
校方负责人介绍,系统每隔30秒会进行一次扫描,针对学生们阅读、举手、书写、起立、听讲、趴桌子等6种行为,再结合面部表情是高兴、伤心,还是愤怒、反感,分析出学生们在课堂上的状态。
校方表示,目前仅趴桌子一项为负分行为。若此类不专注行为达到一定分值,系统就会向显示屏推送提醒,任课教师可根据提醒进行教学管理,而显示屏仅任课教师可见。日后还会与学校医务室等其他后台的数据打通,若学生因身体不舒服,可列入“白名单”。
该校高一学生王虹艺在接受媒体采访时表示,自己理解该系统并非是把上课睡觉的同学的影像录下来,而是通过分析行为得出一个数据。若自身状态不好,收到信息反馈后,在下节课或者第二天便会积极做出调整。
这个原本的「典型」随后遭到众多质疑,不过很多批评者都站在了道德高地上去指责学校对隐私的无视,而搜狐「后窗工作室」则用一个微观视角去重新审视这件事,他们找到了被这个系统所改变的人,包括教师、家长和学生,他们各自又有者不同的需求,比如,家长很喜欢这个系统:
一个高瘦男生,常常不自觉地扭动身体,系统就给了一个低分,可能“被误认为经常趴在桌子上。”他现在已经有了很大的改变,他回家和父母说,父母都觉得应该支持。
而在一些高年级学生看来,他们担心家长和学校联合起来的「阴谋」:
吴建飞担心,下一步系统会怎么发展,“如果是像之前新闻说的,让家长联网,打开手机就能随时看孩子的监控,那我们肯定无法忍受。”他说:“这是破坏家庭团结,我们要有所行动。”
比他高一级的柳峰也有类似的打算。“这就像赫胥黎的《美丽新世界》,通过捕捉你的表情然后控制你。”
“同学不错,知道东西很多啊?”旁边的同学挤兑他。“不是,我只知道锤子。”他边说,嘴边细密的胡须抖动了一下,他说高二8班已经有人把手机柜撬开了。
如果这个系统在全校推广,你们会怎么办?
“我已经准备好了锤子。”说完,他便匆匆离开。
这位同学的锤子灵感或许来自于苹果经典的「1984」广告,不过,当下人脸识别技术所创造的「美丽乌托邦」,显然更像是奥威尔笔下的大洋国,而在这个过程中,科技公司们所扮演的角色并不光彩,在上周 Bloomberg 科技频道的一则新闻通讯里,编辑 Shira Ovide 提出了一个非常难解却又十分重要的命题:
Should powerful technology companies do more to help protect people from potential government abuse, or do more to help government protect its citizens?