第五章 深度突破2(第2页)
当你看到马特·史密斯打扮成神秘博士的照片,就可能联想到一系列的东西,而不仅仅是简单地识别出图片中的人物和解释图片本身。如果你是一个“神秘博士”的粉丝,甚至还有可能深情地回忆起你最喜欢的由他出演的电视剧的某一集(我选择《等待的女孩》,大家同意吗?)。你可能还会记起跟父母或者孩子一起看马特·史密斯主演的《神秘博士》时的场景,里面的怪物让你吓了一跳,等等;或者它会让你联想起一个摄影棚,或者摄制组什么的。
因此,你对这幅图的理解是基于你在这个世界上作为一个人类存在的经历。这样的理解对于标注机器人而言是不可能实现的,因为它没有这个基础(当然,它也并不打算拥有)。标注机器人完全脱离了现实世界,正如罗德尼·布鲁克斯提醒我们的那样:智慧是具体化的。我强调,这个观点并非认为人工智能系统无法做到理解,而是说理解并不是仅仅将某个输入(本例中指包含马特·史密斯的照片)映射到某个输出(本例中指文本“马特·史密斯”)。这种映射的能力可能是理解的一部分,但绝不是全部。
将一种语言自动翻译成另一种语言,是过去十年中因为深度学习技术而快速进步的另一个领域。来看看自动翻译工具能做到什么,又不能做到什么,有助于我们理解深度学习的局限性。谷歌翻译可能算是最著名的自动翻译系统了[79],作为一个产品,它最初于2006年推出,最新版本的谷歌翻译使用深度学习和神经网络,这个系统是通过给它大量的翻译文本训练出来的。
让我们看看,2019年版本的谷歌翻译遇见不合理的难题时会怎么处理。我们让谷歌翻译法国作家马塞尔·普鲁斯特(MarcelProust)在20世纪早期所著的经典小说《追忆似水年华》的第一段,以下是第一段的法文原文:
Longtemps,jemesuiscouneheure。Parfois, peinemabougieéteinte,mesyeuxsefermaientsivitequejen'avaispasletempsdemedire:‘Jem'e,unedemi-heureaprès,lapenséequ'ilétaittempsdecher'éveillait;jevoulaisposerlevolumequejecroyaisavoirenslesmaisoufflermalumière;jen'avaispasdormantdefairedesréflexionssurcequejevenaisdelire,maiscesréflexioprisuntouruiculier;ilmesemblaitquej'étaismoi-mêmetparlaitle:uuor,larivalitédeFradeCharlesQuint。
很难承认,尽管努力学了10年,我对法语的理解还是十分有限,只能辨认出上文里一些奇怪的孤立的句子,如果没人帮我翻译,我根本看不懂这段文字。
以下是由专业翻译将它翻译成英文的结果[80]:
FtimeIusedtogotobedearly。Sometimes,utoutmydle,myeyeswouldclosesoquicklythatIhadosay‘I'mgoingtosleep。’Andhalfanhourlaterthethoughtthatitwastimetogotosleepwouldawakenme;Iwouldtrytoputawaythebookwhich,Iimagiillinmyhands,andtoblowoutthelight;Ihadbeenthinkiime,,ofwhatIhadjustbeenreading,butmythoughtshadrunintoaeloftheirown,untilImyselfseemedactuallytohavebeethesubjeybook:achurch,aquartet,therivalrybetweenFran?oisIandCharlesV。[13]
这下好多了!但有趣的是,虽然这是一段优雅的英文,但它并不是那么直白好懂,至少对我来说是这样。当作者写下“I。。。seemedactuallytohavebeethesubjeybook:achurch,aquartet,therivalrybetweenFran?oisIandCharlesV”(直译:我……似乎真正成了这本书的主角:一个教堂、一出四重奏、弗朗索瓦一世和查理五世的竞争)时,到底指的什么?你怎么能“bee”(成为)一个“church”(教堂)?他说的“quartet”(四重奏)又是什么意思?还有Fran?oisI(弗朗索瓦一世)和CharlesV(查理五世)之间有什么“rivalry”(竞争)?另外,对一个使用电灯的人而言,
“blowoutthelight”(吹灭烛火)又是什么意思?
接下来我们看看谷歌是怎么翻译这一段的:
Lotobedearly。Sometimes,whenmydle,myeyeswouldclosesoquicklythatIhadosay:‘Ifallasleep。’AndhalfanhourlaterthethoughtthatitwastimetogotosleepwouldawakeedtoaskthevolumethatIthoughtIhadinmyhandsandblowmylight;IhadnotceasedwhilesleepiionsonwhatIhadread,buttheserefleshadtakenaratherpeculiarturImyselfokethebook:achurch,aquartet,therivalrybetweenFrandCharlesV。[14]
谷歌翻译做的是一件很复杂的事情,跟专业的人工翻译工作类似。但你并不需要相当专业的翻译知识或者文学素养,就能够看出这段翻译其实挺烂的。在英语中,“blowmylight”(直译:吹出我的光芒)这个短语毫无意义,这就让后面的句子显得也没有任何意义。事实上,这些句子读起来特别滑稽。而且翻译结果中包含了母语为英语的人永远不可能使用的短语。我们得到的总体印象是:这段文本大致可以辨认出是什么意思,但是行文扭曲、不自然。
当然,我们给谷歌翻译出了一道难题——翻译普鲁斯特的小说对一个专业的法译英译者而言都是个巨大的挑战。现在问题来了,为什么自动翻译工具这么难以处理文本呢?
关键就在于,你仅仅是懂得法语并不代表就能做好普鲁斯特小说的翻译。哪怕你精通法语,但普鲁斯特的小说仍然会让你摸不着头脑,不仅仅因为他的文字风格,要正确翻译他的小说,你就得理解它,这就需要你有大量的背景知识。关于20世纪初期法国社会和法国人生活的知识(例如你得知道他们使用蜡烛照明),法国历史的知识(例如你得知道弗朗索瓦一世和查理五世之间的斗争史),20世纪早期法国文学常识(例如当时的写作风格,还有作者可能引用的典故),以及对普鲁斯特本人的了解(例如他最想表达的是什么)。谷歌翻译所使用的神经网络里可没有这些知识。
要理解普鲁斯特的小说需要各种各样的相关知识,察觉到这一点并不新鲜。我们在第三章提到的Cyc项目中就遇见过。还记得Cyc项目的目标是创建“包罗万象的知识库”,Cyc的假设是,这将是创造通用人工智能的基础。基于知识的人工智能研究人员肯定希望我向你们指出,早在几十年前他们就预见到这个问题了(来自神经网络研究界的尖锐反驳就是:基于知识的人工智能界根本没创造出来适用解决这个难题的技术,对不对?)。但是,仅仅改进深度学习的技术就能解决这个问题吗?我认为并不是这样。深度学习将解决问题方案的一部分,我认为,一个合理的解决方案需要的不仅仅是更庞大的神经网络、更强大的处理能力,或者更多无聊的以法国小说形式出现的训练数据。它需要突破现有的模式,需要至少和深度学习本身一样闪亮的突破性进展。我怀疑这些将需要明确的知识表述方式,也需要深度学习:我们必须消除明确表示知识的世界和深度学习以及神经网络的世界之间的隔阂。
重大分裂
2010年,我应邀组织一个大型国际人工智能会议——欧洲人工智能大会(ECAI),大会在葡萄牙里斯本举行。参加类似ECAI这样的会议是人工智能研究人员生活的重要部分,我们把自己的研究成果写下来,提交给大会,由大会的项目委员会审核。项目委员会通常是由相关领域著名科学家组成的小组,他们决定哪些研究成果值得在大会上发表。权威的会议大概只会接受五分之一的投稿,所以研究成果被大会接受是一件非常有意义的事情。真正大型的人工智能会议能够吸引超过5000份的投稿。所以,你能想象,被邀请担任ECAI的主席,我感到非常荣幸——这意味着科学界信任你,另外跟学院提升职加薪的时候也是值得大书特书的一笔。
作为主席,我的工作包括召集项目委员会成员,我非常希望能有来自机器学习研究领域的代表。但意外的事情发生了:每一位我试图邀请加入项目委员会的机器学习领域专家,都礼貌地拒绝了我。被婉拒是常见的事情——毕竟,这是一项艰巨的工作。但是我连一个人都找不到就很奇怪了,是我的问题吗?还是ECAI的问题?或者别的问题?
我向以前组织过这项活动的同事和组织过其他类似会议的人请教,他们也提到了同样的情况。机器学习研究领域似乎对所谓的“主流人工智能”事件不感兴趣。我知道机器学习领域的两件学界大事是神经信息处理系统(NeurIPS)会议和国际机器学习会议(ICML)。人工智能多数分支领域都有自己的专家会议,所以该领域的专家们更注重这类会议,这不足为奇。但在此之前,我根本没意识到,机器学习研究领域的许多人根本就不把自己视为“人工智能”的一部分。
事后来看,人工智能和机器学习之间的分裂似乎很早就有端倪了,也许是从1969年明斯基和帕普特出版了《感知器》这本书开始。正如我们之前所提到的,这本书似乎在扼杀神经网络人工智能研究方面起到了重大作用,从60年代末一直到80年代中期PDP(并行分布模型)的出现。即使在半个世纪之后的今天来回顾,人们对这本书出版的后果仍然感到痛心。不管分裂的起源是什么,事实就是,在某种程度上,机器学习研究领域的许多人脱离了主流人工智能,沿着自己的轨迹发展。当然,也有许多研究人员认为自己可以轻松跨越机器学习和人工智能之间的隔阂。但直至如今,如果你给不少机器学习专家的研究工作贴上“人工智能”标签,他们会感到惊讶,甚至恼火:因为对他们来说,人工智能只是我在本书其他地方记录的一长串失败的想法罢了。
[1] 传闻汉诺塔来自印度的古老传说,印度教的主神梵天在创造世界之时,在世界中心贝拿勒斯(在印度北部)的圣庙里设置了三根柱子和64个金环,并设定了移动规则。当僧侣按照规则把所有的金环都移动完成时,世界将在一声霹雳中毁灭,梵塔、庙宇和众生都将同归于尽。
[2] P代表多项式时间,在计算机术语中,如果一个问题能够在多项式时间内解决,这个问题就是有意义可解的,即P问题,简单地说就是P问题的有效解决方案不会引起组合爆炸。NP问题指的是不确定能否在多项式时间内解决,但是确定能够在多项式时间内验证某个解是否有效的问题。是否能证明NP问题都可以等同于P问题,是当今计算机科学面临的一大难题,即P与NP问题。
[3] 人们将对于计算机来说最困难的问题,非正式地称为“AI完全”(AI-plete)或者“AI困难”(AI-hard),以此说明解决了这些计算性问题就相当于解决了人工智能的核心问题——让计算机和人类或者强人工智能一样聪明。将一个问题称为“AI完全问题”,意味着它不能被一个简单的特定算法解决。
[4] 顺势疗法是替代医学的一种,其理论基础是“同样的制剂治疗同类疾病”,意思是为了治疗某种疾病,需要使用一种能够在健康人中产生相同症状的药剂。
[5] MY系统,是一种帮助医生对住院的血液感染患者进行诊断和选药治疗的人工智能。
[6] 1英寸≈2。54厘米。
[7] 在层次系统中,上一层次单元所具有的构成其下一层次单元所不具有的某些性质。这种性质往往是由于下一层次单元及其相互联结方式的非线性性质产生,也即总体不等于其各个部分之和。
[8] 布鲁克斯是iRobot公司的创始人,该公司广受欢迎的产品Roomba智能扫地机器人就来自他的研究成果[81]。
[9] 博弈论的英文为gametheory,直译为“游戏理论”。
[10] 信用分配问题(creditassigproblem),也有译为赞誉分布、功劳分配的,通俗来讲可以比喻成你吃了10个包子后吃饱了,但是你并不知道具体是哪个包子为你吃饱的贡献比较大。
[11] 异或是一种逻辑运算,计算机符号为“XOR”,运算法则为当a、b两个值不相同时,异或结果为1,当a、b值相同时,异或结果为0。
[12] 鳕鱼系统是世界领先的国际象棋程序之一。
[13] 中文翻译如下:我每天都早早躺下,已经持续很长一段时间。有时候,蜡烛刚灭,我甚至来不及咕哝一句“我要睡着了”,就进入梦乡。半小时之后,我才想起应该睡觉,这一想反倒让我清醒过来。我准备把感觉还握在手里的书放好,吹灭灯火。一直到睡着,我都在思考刚才读的那本书,只是思路有点特别:我总觉得书里说的事儿,什么教堂呀,四重奏呀,弗朗索瓦一世和查理五世争强斗胜呀,全都同我直接相关。
[14] 法文原文使用翻译软件翻译结果如下:长久以来,我睡得很早。有时候,我的蜡烛刚刚熄灭,我的眼睛闭得太快,以至于我没有时间对自己说:“我睡着了。”半小时之后,想到是寻找睡眠的时候了,我醒来了。我想放下我还以为我手上还有的书卷,吹出我的光芒。我在睡觉的时候一直在思考我刚才读到的东西,但这些思考却有一点特别,我觉得我就是作品中提到的那个人:一个教堂,一个四重奏,弗朗索瓦一世和查理五世的竞争。