【WRC 大咖观点】张钹《人工智能与机器人》
2021世界机器人大会第一天线下主论坛——“领航峰会”群星璀璨,产、学、研各领域大咖齐聚首,共话巅峰,为机器人未来发展领航。
峰会现场,中国科学院院士、清华大学人工智能研究院院长张钹上台发言,演讲主题为《人工智能与机器人》。以下为张钹院长演讲内容全文整理。
大家好,我主要是搞人工智能的,二十多年前也搞过机器人,所以今天是从人工智能的角度谈机器人的问题,主要包括几个方面:机器人和人工智能的关系,也就是机器人应该如何定位,如何扩大机器人的应用场景,现在机器人要发展和产业化,最关键的问题就是如何扩大应用场景,最后就是如何从结构化环境走向非结构化环境,人工智能会在其中起到什么作用。
可能大家对人工智能都比较感兴趣,但大多数人对人工智能有很多误解。人工智能究竟是干什么的?很多人都以为人工智能是用来模拟人类的智能,这个理解是错的,因为我们对什么叫做人类的智能是说不清楚的,我们连智能都定义都不清楚,怎么可能利用智能定义人工智能?所以人工智能不是用机器模拟人类的智能,而是用机器来模拟人类的智能行为。
大家注意这里多了两个字,模拟智能和模拟智能行为是完全不同的。举个例子,我们没法模拟人类的情感,因为我们不知道怎么定义,什么叫做快乐、什么叫做痛苦,快乐和痛苦在人类大脑和心理发生什么变化,到今天为止我们还不是很清楚,在这种情况下,我们不可能用机器模拟人类的痛苦和快乐,那我们用机器模拟人类的感情,模拟什么呢?模拟感情的表现,痛苦和高兴地表现自己的行为。大家知道情感主要是从三个方面表现:脸部表情,你高兴得眉开眼笑,还有语言和声音,高兴得哈哈大笑,肢体动作,高兴得手舞足蹈。
我们从人类的面部表情、语言、发表的言论和动作判定你对这个事情的态度,这是情感分析,究竟是赞成还是反对,所以应该说人工智能是用机器模拟人类的以下四个方面的智能行为,理性行为包括感知和动作,此外还有情感和灵感等等。人工智能就是要模拟人类的这样四个智能行为,那么大家肯定知道机器人和这个很相似。我们要做出一个机器,它的表现跟人相似,至于机器脑子里是不是这么想的,这不是人工智能现在要回答的问题,而是由心理学家和脑科学家逐步回答的问题。
但在这里有一个区别,机器人做的是机器,人工智能做的是智能体,就是用Agent来描述它,而不是智能机器,为什么?因为人工智能不光要做机器,还要做软件、做器件,包括智能芯片,所以用智能体概括人工智能不仅要做硬件、做机器,还要做软件、做系统、做元器件,这一点是和机器人有所区别的。
应该怎么定义机器人?我专门找了网上的定义,这里有非常不同的层次,最低的层次就是看成一个数字化设备,操作手可以通过程序控制,这是最低的层次,最高的层次几乎跟人工智能一样定义,具有认知、感知和情感的机器。实际上对机器人的理解宽度很大,最底层就是可编程的机器,最高层就是有各种各样的智能的机器,我们在现阶段应该怎样看待机器人?我的看法是对机器人的认识是逐步的,也有一个发展的过程,大多数人认为机器人应该这样定义,包括三大部分:感觉或者感知,可能通常做不到感知,只能做到感觉,后面就是操作器、消音器等等,中间的部分目前主要还是集中在控制、编程这些领域,智能的成分要逐步增加。
之前参加前几届的时候提出的是智能机器人,所以我们设计了五个部分:机构、控制、传感器、视觉和人工智能,我是负责人工智能的,那个时候最主要的任务是在机构和控制,虽然我负责人工智能,但我几乎没法布置人工智能项目,当时我布置的人工智能项目主要是两个内容:机器人的运动规划和任务规划,所以当时只是一个参与研究,根本入不了机器人主题的主要部分,但前年我到以色列碰到以色列的教授办的一个公司,专门做机器人的任意规划和运动,所以我们可以认识人工智能是不断地、逐渐地深入到机器人,不是一步到位的。
人工智能怎么介入机器人的发展过程?机器人和人工智能有很多重叠的地方,但我觉得机器人更要面向任务、面向应用。我们来看机器人和人的整个发展过程,可以看到中间有没有交集,现代机器人的发展差不多也是上个世纪五十年代,跟人工智能差不多的时候,人工智能是1956年,机器人大致也是这样,但我们可以看一看两个发展的进程非常不一样。机器人基本上是平稳发展,起伏不大,人工智能是起伏极大,一会儿高兴一会儿低潮,那么人工智能在机器人今后的发展中会起到什么作用?
最初开始机器人是在美国实验室做的,六十年代主要是这两个体系:比如斯坦福的机器人机械臂,工业机器人还没有出来,就是叫做Manipulator操作手,另外就是这样一个车,差不多六十年代的时候就是这两个实验,这是现代机器人的两个雏形,一个就是机械臂的发展,一个就是移动机器人的发展。
机器人产业派出了两个分支:一个是以多关节机械手为代表,最早用于制造业,后来就是千方百计地希望用到其它领域,有的是建筑用的,有的是电线用的,就是机器人巡检和建筑,大家应该认识到,那个时候叫做特种机器人,这是一条发展的路径,大家可以看出走得还是很艰难的,不是机械臂那样一下子形成大市场,那么问题在哪里?
首先是安全性,我们如果主要集中在控制的话,比如医疗机器人、手术机器人,也是类似机械臂那样,但对安全性的要求有多高?国内也有很多大型医院购买达芬奇机器人,最早的时候是1000万美金,现在变成1000-2000万人民币,已经做了两三百万次手术,因为机器人故障死了80个人,今后还会死人的,主要就是因为控制出毛病,或者漏电或者控制系统有问题,我们要将机器人变成产业,而且还要求既廉价又可靠,这对产业来讲是最大的困难,要是高质量廉价我们会干,但又廉价又可靠很难,需要大家下功夫。故障的主要原因还是机构和控制,这跟人工智能没关系。
刚才讲到可靠性,另外就是应用场景,我们要为机器人选择一个好的应用场景不是很容易的,最近做的机器人主要就是教育、小型装备这些领域,基本上可以做到年产量1万台,这在中国还算是不小的了,而且大部分是出口,其实是改变了应用场景,因为原来一个传统的制造业,特别是大型高精度高速,我们肯定不如国外,改变应用场景以后完全可以自主生产,所以这也是一个非常好的例子,国家也很重视,目前出口还是占了很大比例,所以我们要做传统机器人,扩大应用场景,这本身就是一个非常大的创新。
现代工业机器人是美国人发明的,日本人买去专利,把它发展成为产业,这是非常了不起的,特别是和汽车制造业结合起来,才能使得机械臂变成一个产业,美国人没有把它变成产业。
另外一条路就和移动机器人类似,现在用的比较多的就是仓库里面,包括无人机、水下机器人,为什么机器人在这些领域得到应用,其它领域却比较困难?就是我们下面要讲的最重要的问题,如何突破从结构化到非结构化的环境?这就需要人工智能,下面我用几个例子说明。
机械臂最早的PUMA就是多关节,之后变成工业机器人,七十年代到八十年代就是这些,现在要把它推广到一个相对非结构化的环境,所谓机械臂的非结构化环境就是有人参与,最近提出了协作机器人这个概念,意思就是过去机器人肯定可以分开,大的机械臂在那里必须用铁栅栏围起来,否则不安全,现在能够和人交互,环境就已经变成非结构化了。
要想解决非结构化环境的问题,必须把感知和动作结合起来,你们要做的动作是把感知和动作连接起来,因为搞机器人的人对反馈的概念非常清楚,因为这里必须要用反馈,但人工智能缺少反馈的概念,所有搞计算机的人都缺少这个概念,因为研究的东西都是开放的算法,所以我觉得可以是人工智能和机器人结合是非常重要的点,而且你们可以做好。
协作机器人原来是美国Brook教授做的,可以柔顺控制,不会碰到周围的事物,如果碰到的话马上速度就会降下来,但始终形不成产业。最近我们国家把这项专利买下来了,就是我们有没有可能把它发展成为一个产业,因为可以用在非结构化的环境下,所以对我们来讲这也是一个考验。我国有没有可能干成这件事?我觉得有可能,因为有很大的需求,只有在有需求的情况下才能找到应用场景。
过去我们也做过不少移动机器人,基本上从美国开始,中国早期也是集中在搞越野的,慢慢地越野的任务就转向军方和自动驾驶车辆,目前来讲全世界都非常重视,就是走向自动驾驶是必然的道路,大家可能也知道这一点。
自动驾驶最重要的就是感知部分,也就是说汽车必须可以感知周围的环境,这里涉及的问题就比较多了,传感技术的问题,这些当然还是属于机械手,移动机器人主要是视觉传感器,包括多模态,我们用摄像机或者其它标志感知周围环境,这在人工智能看来就是深度学习,我们现在就要说这个技术可不可靠。我们用摄像机识别周围的行人车辆,人工智能基本上可以做到这些,无论是图像、语音还是文本都是用所谓的深度神经网络来学习。
大家都知道深度学习采用模式识别、人脸识别、图像识别,原来误识别率是50%,现在深度学习一下子降到3.57%,但我可以告诉大家,这个算法是非常有问题的,存在事故,不安全、不可靠、不可信、不宜推广,这是信息时代我们没有遇到过的问题,往往是设计大型软件时的漏洞造成的,我在很多场合下都说无人驾驶一定要非常慎重,可能在仓库人少的地方可以,但人流复杂的情况下要非常慎重。
图中的广告是噪声,把这种广告放在车的后舱,广告只是噪声不同,人看起来是一样的,但上面的那个车计算机识别系统可以看到,以下的车计算机看不见,或者完全看错了,这是计算机视觉的脆弱性,也可以说是计算机视觉算法的不安全性。
如果这种不安全性不消除,大家想一想会出多大的事故?为什么人工智能会出现这种波动?就是由于产生方法以后,这种方法本身往往带来另外的问题。
人工智能现有的方法只能处理结构化环境下的问题,非结构化环境下的问题,人工智能有待提高,所以我们提出第三代人工智能就是要解决非结构环境下的感知问题。怎么解决这些问题?过去我们做人工智能的时候主要是靠知识、算法和算力,进入数据驱动时代以后主要靠的是数据、算法和算力,光是指定数据、算法和算力做出来的系统肯定是不安全的,怎么解决安全问题?我们的办法就是充分地利用知识和数据、算法和算力。
大家可以看到自动驾驶从L3、L4走到L5,我们必须要解决计算机视觉不安全性的问题,现在世界各国都在这样做,因为自动驾驶肯定要做未来汽车四个轮子上的超级计算机,换句话说就是用很少的钱买它的车,用大量的钱买上面的计算机设备,传感器、摄像头和激光扫描仪,所以很多公司都在做这些,包括特斯拉、Google和通用汽车。
我们现在是用大数据的方法对图像进行分割和识别,然后建模规划,现在完全可以做到实时,比如地平线上做的芯片是把算法做到芯片里面,识别和划分都没有问题,这样的话车还能不能开?我们说不能开,主要是两个原因:视觉是不可靠的,有的东西是看不清楚的,最大的问题就是如果这个系统有人的话就会变成非常复杂的系统,大家知道交通的人有两种:一种是驾驶员,一种是行人,这两种人都在有意无意地破坏交通规则,不光是中国人会破坏交通规则,外国人一样会破坏交通规则,大家开车的时候有没有违反过交通规则?我自己就违反过,慢速的情况下两个车的车距应该是多少?15米,你在北京试试看,两个车距离15米,你这个车还能开得动吗?假设稍微有点空就被加塞,根本没有办法往前开,所以必须考虑实际,在这种情况下不可能所有人都按照规则来走,而且还会出现更多更复杂的情况,这种情况计算机就没法处理。
怎么解决这些问题?实际上非常简单,人工智能里面有与环境交互的学习,现在的做法是所有车都在那里做实验,大家经常说美国人已经给自动驾驶发执照了,可以上路去开了,其实这是错误的,只是可以上路去试,美国人是在什么地方试?是在恭凡城的郊区,中国是在开发区,所以大家不要以为这个问题已经完全解决了,那么请大家注意,如果我们开几十万迈就会积累大量的经验,就会暴露很多计算机看不到的错误的地方,加上知识和经验完全自动驾驶是可以做到的。
我想给大家传达的就是这条信息,机器人往前发展的时候,人工智能会在某个地方和你有交集,我们可以和人工智能共同合作研究做到这一点。