第二部分 我们是怎么走到这一步的 第二章 黄金年代(第2页)
积木世界可能是整个人工智能领域中研究得最多的场景,因为在积木世界中,机械臂完成拾取物品并移动它的操作,听上去与现实世界中我们为机器人设想的任务类似。但是,在SHRDLU(以及诸多后续研究)的积木世界,如果要作为开发使用人工智能技术的场景,还有着严重的局限性。
首先,积木世界是一个封闭的世界,这意味着引起世界变化的唯一因素就是SHRDLU。这就像你一个人住的时候可以笃定地相信,你睡觉前把房门钥匙放在哪里,醒来以后它仍然在原处。如果你家里还有其他人,就会存在别人拿走你钥匙的可能。因此,当SHRDLU把对象x放在对象y上面之后,就可以笃定地认为对象x一定位于对象y的上方,除非它对相关对象进行过操作。而现实世界并非如此,人工智能系统不能假设自己是世界上唯一的行动者,这样的假设只会让运行结果错误百出。
其次,也是更重要的一点,积木世界是模拟世界,SHRDLU并没有真正操作一个机械臂来拾取对象并移动它们——它只是作为程序假设这么做而已。它模拟了一个世界,并模拟出自己的行为对这个世界产生的影响。SHRDLU从来没有构建一个基于真实世界的模型,也没有检查模拟世界的模型是否和现实世界相匹配,这就是一个极简的假设而已。积木世界是否忽略了机器人在现实世界中运行所面临的绝大多数困难,这也是一个后来研究人员争论颇多的话题。
为了更好地理解这一点,我们以“从对象y上拾取对象x”为例,考虑它的操作。站在SHRDLU的角度,这就是一个简单、明了的动作:机器人只需要径直从指定的目的地拿起指定的对象就算执行完成,无须考虑这个动作涉及的其他东西。因此,程序只需要找到执行任务所需的正确方法和步骤顺序,就能“控制”整个过程,它不会考虑在执行任务的过程中所遇见的各种麻烦事。但想想现实世界,假设机器人在仓库的环境里,那么它就必须识别出哪个是对象x,哪个是对象y,这才能成功执行这条命令。好吧,即使解决了对象识别的问题,单单抓取这最后一步,也不是件简单的事情——让机器人在现实世界中操作哪怕是最简单的物件,困难都远比想象的大,即使在今天都是一个富有挑战性的难题。1994年,我以一个年轻学者的身份前往西雅图参加美国人工智能协会会议时,就对这个问题有了一定的了解。我仍然清晰地记得那些参加“清理办公室”竞赛的机器人,其不称职的程度简直令人惊讶。顾名思义,竞赛的目的是制造一个机器人,它可以在类似办公室的环境中安全地移动,识别和收集垃圾——这个环境就类似于现实版的积木世界。此时已经是SHRDLU问世20年后了——结果,哪怕是在比赛中表现最好的机器人,它的执行速度也慢得令人发指,让人差点以为无法完成任务。当然,问题不在于机器人,而在于人们天真地低估了这些问题的难度。事实上,我们错误地以为,某些人类执行起来轻而易举的任务,机器人执行起来也应该同样轻松。
因此,积木世界之所以引起人们关注,是因为它直观且易于理解。看上去它构造出了类似现实世界的机器人工作环境,其实都是我们自己臆想出来的。深入研究一下就能发现,积木世界所研究和解决的,只是用一系列可执行的动作来解决问题的方法。虽然这确实是一个值得关注的领域,但这只解决了机器人在现实环境所面临的问题中极小的一部分,并且绝不是最困难的那部分。
SHRDLU最为人称赞的特性之一,是用户可以向系统发送指令,并且能从系统中接收到类似自然语言的反馈。下面是一段人类与SHRDLU的对话(SHRDLU的话用斜体字表示):
拾取一个大的红色方块。
好的。(执行命令)
抓取一个锥体。
我不明白你指的是哪个锥体?
寻找一个比你拾取的方块更高的物块,并把它放进盒子里。
我想你所说的“它”指的是比我拾取的方块更高的那个。
好的。(执行命令)
盒子里面有什么东西?
蓝色的锥体和蓝色的方块。
蓝色的锥体由什么支撑?
由盒子支撑。
有几个积木不在盒子里?
四个。
至少有一个比我叫你拾取的那个更窄吗?
是的,红色立方体。
它有支撑吗?
有,桌子。
桌子能拾取方块吗?
不能。
一个锥体能被一个方块支撑吗?
能。
这段对话远比ELIZA有意义得多——这个系统更加自然、丰富,能够处理复杂结构的句子(比如“至少有一个比我叫你拾取的那个更窄吗?”)以及明白代词“它”在对话中指代的具体对象[19]。正是SHRDLU系统的类似自然语言的交互方式,让它在20世纪70年代初受到了热烈的追捧。然而,后来人们发现,SHRDLU之所以能够产生如此丰富的对话,仅仅是因为它处于一个非常受限的环境——积木世界。虽然不像ELIZA那样事先预设了各种处理对话的模式,但它的对话发生场景是受限的,所以对话内容的局限性非常明显。这个系统首次出现时,人们希望它可以提供一条通向处理自然语言的道路,然而,这个希望落空了。
我们这些身在50年后的人很容易发现SHRDLU的局限性,但无论如何,它仍然是一个影响巨大的里程碑式的人工智能系统。
机器人SHAKEY
机器人与人工智能一直密切相关——尤其对于媒体而言。1927年,弗里兹·朗(FritzLang)在其导演的经典电影《大都会》中塑造的机器人形象,成为后世无数机器人荧幕形象的模板:长着一个脑袋、两只胳膊、两条腿的类人的机器,再加点儿冷酷凶残的性情。即使在如今,似乎大众媒体上每一篇有关人工智能的文章都得配上机器人的图,长得就像《大都会》里机器人的直系后代。机器人,尤其是类人的机器人,成为人工智能的标志,这并不让人感到惊奇。毕竟,最能体现人工智能梦想的,就是有长得跟我们差不多、拥有类似我们智力的机器人,与我们同吃同住同劳动。再说了,我想大多数人都会乐意拥有一个机器人管家来帮忙处理生活中的各种问题。
不过在黄金年代,机器人只是人工智能故事中占比相对较小的一部分。原因相当简单:制造机器人又昂贵又费时,坦率地说,还很困难。一个在20世纪60或70年代独立工作的博士生,绝对承担不起建造一个研究级的人工智能机器人的费用。它需要一个完整的研究实验室、专业的工程师、一整套生产车间流水线、专业的生产设备等。另外,能够驱动人工智能系统的计算机太过庞大和沉重,机器人无法携带。所以,对研究人员而言,构建一个类似SHRDLU的程序要比构建一个现实的、可操作的机器人简单得多,也经济得多——反正系统的复杂性和混乱性是能满足现实需求的。
不过,尽管实体机器人的研究很少,但在黄金年代,还是有一个光辉灿烂的人工智能机器人实验成果:在1966年至1972年间斯坦福研究所开展的SHAKEY项目。
SHAKEY是人类第一次认真尝试构建可移动的、实体的机器人,它可以在现实世界完成各项任务,并且自己想出完成这些任务的方法。要做到这些,SHAKEY需要感知所处环境,了解自己身处的位置和周围的状况;还要能接收任务,并自己制订完成任务所需要的步骤;然后按步骤执行任务,同时确保在执行过程中一切顺利,达到预期效果。它所需要完成的任务主要是在类似办公室这样的环境里移动各种盒子。听上去跟SHRDLU很像,不过SHAKEY可不是SHRDLU那样虚拟的系统,它是一个真实的机器人,能够真真正正地操作物体,这可是一项伟大的挑战。
要想达成目标,SHAKEY要集成好多令人望而生畏的智能系统。首先,建造它的工程师得解决一个大难题:开发人员要自行建造机器人,它必须足够小,足够灵活,才能在类似办公室的环境里移动。还得拥有足够强大和精准的传感器,使机器人能够了解周围的情况。为此,SHAKEY配备了一个电视摄像机和激光测距仪,用来确定它和各物体之间的距离。为了探知障碍物,它还配备了一个名叫“猫须”的碰撞探测器。然后,SHAKEY必须拥有在环境中导航的能力,它还能够制订执行任务所需要的步骤。为此,开发人员设计了一个名为STRIPS(斯坦福研究所问题解决系统StaituteProblemSolver的缩写)[20]的系统,现在,人们公认STRIPS系统是人工智能规划技术的鼻祖。最后,所有的智能系统必须流畅、完美地彼此配合,协同工作。任何人工智能研究人员都会告诉你,上述的所有系统,能成功实现其中一个,都是攻克了大难关;若是能让它们作为一个整体工作,其难度会直线跃升好几个数量级。
当然,听上去SHAKEY很神奇,不过它也充分暴露了当时人工智能的局限性。为了让SHAKEY正常工作,设计者不得不大大简化机器人所处的环境,还要降低任务难度。比如,SHAKEY解析它自带的电视摄像机的数据的能力非常有限,几乎只能用来探测障碍物。即便如此,它所处的环境都必须经过特别的粉刷,还需要精心的照明。因为电视摄像机功率太大,所以只在有需要的时候才能打开,打开电源后10秒左右才能产生可用的图像。当时的开发人员一直在与计算机的局限做斗争:比如SHAKEY需要花费15分钟的时间才能设计好怎么完成一项任务,在此期间,它像个傻瓜一样站在那里,一动不动,与周围环境完全隔绝。由于能够完成SHAKEY相关软件运算的计算机体积都太大,重量也太重,所以得用无线电把SHAKEY连接到一台操控计算机上[21]。总之,SHAKEY这种机器人没有任何实用意义。
SHAKEY可以说是第一个成为现实的自动移动机器人,它开创了一系列令人惊叹的人工智能新技术,和SHRDLU一样,由于这些成就,它理应在人工智能历史中获得殊荣。但是SHAKEY的局限性,证明了人工智能离实用的、拥有自主能力的机器人梦想有多遥远,完成这一挑战有多艰巨。
问题解决与搜索
解决问题的能力无疑是区分人类和其他动物的关键能力之一。互联网上充斥着松鼠[22]和乌鸦[23]的视频,这些动物虽然可以解决一些复杂的问题以获取食物,但就解决抽象问题而言,还没有任何动物能够接近人类的水平(哪怕没有食物作为直接奖励也会去解决问题)。当然,解决问题是需要智慧的,如果我们能构建某种程序,解决人类认为难以解决的问题,这算不算人工智能走向现实的关键一步呢?因此,在黄金年代,人们在解决问题这个领域投入了大量研究,当时研究人员的标准做法是让电脑来解决人们经常在报纸趣味谜题版面能够看到的东西。我们以经典的汉诺塔为例: