第七章 杞人忧天我们想象中的人工智能会出什么错(第3页)
·能力警惕:我们应该避免关于未来人工智能能力上限的过高假设,但这一点还没有达成共识。
·重要性:高级人工智能能够代表地球生命历史的深远变化,人类应该报以高度关注,以及用合适的资源来进行规划和管理。
·风险性:必须投入与人工智能系统预期影响力相对应的努力来应对和缓解它们带来的风险,尤其是毁灭性风险或者涉及人类存亡的风险。
·递归式自我改善:对于设计中能够进行递归式自我改进(自动提高它们的智力,然后利用改进后的智力进一步提高自己)或者自我复制,可能会导致人工智能智力快速提升或者复制品迅速增加的人工智能系统,必须遵守严格的安全和控制措施。
·共同利益:超级智能的开发应当只为普世认同的道德理想服务,应当惠及全人类,而非惠及某一国家或者组织。
再次重申,我个人对签署以上准则是没有任何异议的,但事实上,正如我之前讲到过的,我们离这些准则暗示的场景还有十万八千里,将这些场景纳入准则中几乎就等于制造恐慌。用人工智能科学家吴恩达A的话来说,现在担心这些问题就像在担心火A吴恩达,1976年生,华裔美国人,斯坦福大学计算机科学系和电子工程系副教授、人工智能实验室主任。吴恩达是人工智能和机器学习领域最权威的学者之一,也是在线教育平台Coursera的联合创始人。星人口过剩一样[105]。或许在未来的某一天,这些问题足以将人折磨到失眠,但现在就提出来,是在误导人工智能的未来发展之路,更令人担忧的是,它分散了我们的关注。我们究竟该关注哪些问题,这个会在下一章讨论。当然,也正是因为这些场景在未来很长一段时间内都不可能出现,所以各大公司都可以不费吹灰之力地欣然接受,并且享受由此带来的提升企业形象的正面宣传效果。
2018年,谷歌发布了自己的人工智能道德指南。比阿西洛玛准则略简洁,它们涵盖了许多相同的领域(有益、避免偏见、安全)。并且,谷歌还就人工智能和机器学习开发的最佳实践提供了一些具体指导[106]。2018年底,欧盟提出了另一个框架[107],还有一个框架是由IEEE(电气和电子工程师协会,一个非常重要的计算机和信息技术专业学会)提出的[108]。许多大公司(不仅仅是IT公司)也发布了他们自己的人工智能道德准则。
当然,大企业宣称他们致力于发展人工智能道德是一件好事情。然而,他们是否真正理解所承诺的东西,这才是难点。高层的愿景是很美好的,比如分享人工智能的益处,肯定受欢迎,但是将其转化为具体行动却并不容易。谷歌十多年来使用的公司座右铭是“别作恶”,这听起来不错,我敢说这是真诚并带有善意的——但这对谷歌的员工而言又意味着什么呢?如果需要防止谷歌越轨到黑暗面,他们还需要更具体详细的指导。
在已经提出的各种框架内,某些主题反复出现,围绕它们所达成的共识也越来越多。我在瑞典于默奥大学的同事维吉尼亚·迪格努姆(VirginiaDignum)将这些问题分为三个关键类别:解释义务、责任和透明度[109]。
解释义务主要是指,比如一个人工智能系统做了一个对某人有重大影响的决策,那么这个人有权要求系统对这个决策进行解释。但是怎么样才算是解释,这就是个难题了,在不同的环境下有不同的答案,而现在的机器学习程序无法提供解释。
责任则意味着应该明确对决策负责的智能体,而且,最重要的是,我们不应该试图声称人工智能系统本身要对决策“负责”,责任方应该是部署该系统的个人或者组织。这就指向了一个更深层次的哲学问题,一个与道德智能体有关的问题。
道德智能体通常被理解为一个实体,它能够分辨是非,并理解其行为所导致的后果。人们通常认为,人工智能系统可以承担道德智能体的责任,并且能够为它的决策和行为负责。而人工智能研究界的普遍观点恰好相反:软件是不能被追究责任的。更进一步说,人工智能研究中的责任并不意味着制造出有道德责任的机器人,而是以负责任的方式开发人工智能系统。例如,发布一个类似Siri的软件智能体,误导用户以为自己在跟另一个人交互,这就是软件智能体的开发者对人工智能不负责任的使用。软件在这里不是罪魁祸首,开发和部署它的人才是。负责任的设计在这里意味着人工智能将始终清晰地表明它的非人类身份。
最后,透明度意味着一个系统使用的数据应该是可获取的,其中使用的算法也应该是清晰明确的。
人工智能伦理研究的兴起是令人值得高兴的进步,尽管目前正在提出的各种框架和体系实际的实施范围还有待观察。
谨慎地表达意愿
有关人工智能伦理的讨论有时候会让我们遗忘一个平凡的现实:人工智能软件就只是软件而已,我们不需要创造什么新奇的技术让软件出错。简言之,软件本身就有缺陷,没有缺陷的软件是不存在的:只是有的软件因为缺陷崩溃了,而有的没有。开发无缺陷软件是计算机领域的一项重要研究,发现和消除缺陷是软件开发的主要内容之一。但是人工智能软件为引入缺陷提供了新的方式。其中最重要的一点是,如果人工智能软件要代替我们工作,我们需要告诉它希望它做什么,这往往不像想象中那么容易。
大约15年前,我正在研究一种技术,旨在使车辆在不需要人为干预的情况下进行自我协调。听起来很酷炫,不过因为我研究的特定场景是铁路网,所以实际情况相对要简单一些。铁路网是环形网络,上面有两辆列车朝着相反的方向行驶。当然,火车和铁路都是虚拟的——没有实际的轨道(事实上连玩具轨道都没有)。假设虚拟的铁路通过一个狭窄的隧道,如果两辆火车同时进入隧道,那么就会发生(虚拟的)车祸,而我的目标是阻止这一切。我尝试开发一个通用框架,允许我向系统提出一个目标(本例中的目标是防止火车撞车),系统将返回一些规则,列车如果遵循这些规则就能保证目标实现(列车不会发生碰撞)。
我的系统开始工作了,但跟我想象的差距甚远。当我第一次向系统输入目标时,系统返回的规则是:两列火车必须都保持静止。当然,这是可行的——如果两列火车都保持静止,当然不会发生车祸了,可这不是我想要的方案。
我遇见的问题是人工智能研究中的典型问题,实际上在计算机科学中也存在。我们想把自己的意愿传递给计算机,这样计算机可以代表我们去达成它。但是,将意愿准确地传达给计算机,本身就是一个非常有问题的过程,原因有好几个。
首先,我们可能并不知道自己想要什么,至少并非明确知道,在这种情况下,表达自己的意愿几乎不可能。另外,我们的意愿通常存在矛盾,在这种情况下,人工智能又要如何理解它?
此外,我们不可能一次说清自己的偏好,所以通常我们所做的是对意愿和偏好进行概述,而概述和全面的叙述之间总会存在差距,人工智能又该如何弥合这些差距呢?
最后,也许也是最重要的一点,当我们和人类交流的时候,通常默认彼此间有共同的价值体系和规范。我们不需要每次互动之时都把所有的东西交代清楚。但人工智能并不清楚这些默认的价值体系和规范,它们必须得到明确的说明,或者我们需要通过某种方式保证人工智能系统的后台存在这些东西。如果没有,那我们没法得到自己想要的结果。在上文的火车铁轨研究中,我传达了我的目标,即火车要避免撞车,但我忘了传达一个信息:火车仍然需要保持运行。如果是跟人交流,我想所有人都会理解并默认这一点,哪怕我忘记交代。但计算机系统不会。
牛津大学哲学家尼克·博斯特罗姆(Ni)在他2014年出版的畅销书《超级智能》[110]中讲述了这种情况,他称之为不通情理的实例化:计算机按照你的要求去做了,但并没有按照你预期的方式。想象不通情理的实例化具体案例,可以让人不停地想上几个小时:你要求机器人确保你的房子不会被窃贼入侵,它索性一把火把房子烧了;你要求机器人保证人类不会得癌症,它干脆把所有人都杀了。诸如此类。
当然,我们在日常生活中也经常遇见这类问题:每当有人设计了一套旨在鼓励某一类行为的激励机制时,总有人会找到某种博弈方式,在不按预期行事的情况下获得奖励。我想起了苏联时期的一则逸事(可能是编造的):苏联政府希望鼓励刀具生产,因此决定根据刀具的重量来奖励生产刀具的工厂,结果如何?餐具工厂很快开始生产重得拿不起来的餐刀餐叉之类……
迪士尼经典电影的影迷可能会想到一个相关的情景,1940年迪士尼电影《幻想曲》中有一段情节,天真的巫术学徒米老鼠厌倦了从井里打水并提到屋里的家务活儿,为了减轻自己的负担,他召唤了巫术扫帚来做这件事。但是当米老鼠打瞌睡醒来后,他不得不阻止扫帚一桶又一桶地往屋里提水,结果他的地下室被水淹没了。最终他不得不寻求巫师师父的介入来纠正这个问题。米奇的扫帚完成了他的要求,但那并不是他想要的。
博斯特罗姆还设想了以下场景:假设有一套控制回形针生产的人工智能系统,人们要求它“最大化生产回形针”,然后,从字面意思来讲,系统将考虑先把地球和宇宙的其他部分转化成回形针的样式。同样,这个问题归根结底还是沟通问题:在这种情况下,我们传达目标的时候,要确保明确无误,不会产生歧义。
解决这个问题的方法是设计一种人工智能系统,以尽量减少其行为对周围环境的影响。也就是说,我们希望人工智能实现目标,同时让它所涉及的一切都尽可能保持或接近现在的状况。“ceterisparibuspreferences”(即“尽可能保持其他条件不变”)的概念说明了这一点[111]。“ceterisparibus”是拉丁文,意思是“其他条件不变”。因此,按照“尽可能保持其他条件不变”的想法,如果我们让人工智能系统做一些事情,是希望它完成任务的同时,保持其他一切尽可能不发生变化。因此,当我们发出“避免我的房子被盗贼入侵”指示时,我们的意思是“避免我的房子被盗贼入侵,同时尽可能使房子的其他一切保持现状”。
解决这些问题的核心都是让计算机理解我们真正想要的是什么。逆向强化学习就是针对这一问题展开的,我们在第五章了解了常规的强化学习:智能体在某种环境中行动,并获得奖励。强化学习的目的是找到一个行动过程,最大限度地获取奖励。在逆向强化学习中,我们首先确定了“理想”的行为(即人类会怎么做),然后再制定人工智能软件能获得的相关奖励[112]。简言之,我们是将人类的行为视为理想行为的典范。