【WRC 大咖观点】孙富春《移动双臂机器人的智能感知与安全操作》
2021世界机器人大会第一天线下主论坛——“领航峰会”群星璀璨,产、学、研各领域大咖齐聚首,共话巅峰,为机器人未来发展领航。
峰会现场,清华大学孙富春教授上台发言,演讲主题为《移动双臂机器人的智能感知与安全操作》。以下为孙富春教授演讲内容全文整理。
尊敬的各位嘉宾,女士们、先生们,大家下午好!非常感谢大会组委会的邀请,有机会和大家汇报一下我对移动飞行双臂机器人的感知和安全操作做的一些工作,我的汇报分为四个主要部分:目前在移动平台上,包括地面移动的车、空间飞行器上的装备,多个器件操作是重要的发展趋势。军事场景中的反恐,包括矿山的开发、巡检安防、抢险救灾、物流和建筑、农业三保系统,包括民生和健康领域,比如疫情下的巡诊机器人就是由移动平台加上机械臂,隔离间中做轻诊、测血压,包括辅助作业。
飞行操作平台和移动操作平台相结合能够解决很多问题,把机械手的操作能力和平台大空间的移动结合起来,实现远距离大场景下的作业过程,小到医院里的手术机器人,大到农业山区采摘机器人,这些是未来很重要的发展趋势。刚才张钹老师也有提到主要用来解决从结构化到非结构化的问题,也要通过主动感知技术,就是把行为和感知结合做闭环实现精细化感知。我们可以把多个无人机集联,平台和机械臂联合运动,解决机动性的问题,包括多臂协同实现灵巧操作,通过人工智能里的一些技术,比如操作技能的学习增强技术、迁移学习技术,不断地提高机械臂的能力。现在有一种学习叫做连续学习和终身学习,不断提高机器人的操作能力。
目前把感知和操作能力结合缺少理论构架,怎样通过理论构架把感知和操作能力闭环起来,这是未来人工智能和机器人结合点的一个非常重要的问题,下面我们就介绍这个计算构架,叫做Bcent。刚才张老师也谈到行为和感知的问题,这个正好印证了人工智能的第三范式。
感知怎样增强行为,行为怎样增强感知,所以是一个动态的过程,恰恰能够解释机器人的感知和行为如何有效结合的问题。
这里涉及到一个很重要的问题就是智能体的改变,智能体就是研究如何跟环境交互,通过奖惩机制不断增强行为的过程。目前智能体大多数采用的是部分可观测的建模,现有条件下最大的弱点就是没有考虑和物理环境实体的交互。另外就是记忆和知识如何嵌入到这样一个Agent,视频中是一个啤酒加盖的场景,由于瓶盖出了问题,因为机器没有这个先验知识,还是按照传统的方式操作,结果出现了这样的问题,由此可以看出知识和记忆的嵌入在未来操作过程中是非常重要的。
现有的智能体概念是不是需要扩展?比如智能体中有一个非常苛刻的条件,就是要知道状态,通过大脑的人工智能算法的推理得到Action,就是行为和行动,这是状态到行为的映射过程,也是一个单向的过程,但实际上机器人的传感器得到的信息恰恰是一个异构的、大的数据空间,要把这些变成状态就是人工智能算法,大的异构数据空间映射到一个状态,我们把这个叫做数据空间的映射,这样才能实现状态表示,状态表示是现有智能体实际应用中最重要的问题,就是如何得到状态,包括知识怎么产生。大家都知道,只有知道自己错了才能产生新的知识,所以交互过程在这里是非常重要的,我们把大脑的处理部分通过感知和行为跟环境交互的过程产生知识。
Action究竟做得对不对、好不好,要让行为体和环境交互,才能知道这个结果是对的或者是不好的,由此我们提出智能体要扩展,要把感知和行为变成两个体,而且是物理过程,信息处理过程叫做认知体,作用过程叫做行为体,就是三个体构造具有交互能力的系统,可以称之为脑机接口,大脑通过感应器和环境协同,包含感知动力学、行为动力学,而且感知动力学和行为动力学跟环境交互产生偏差的话要修正大脑的认知过程,所以这是一个感知和行为的交互过程,包括物理体系结构,智能体体系结构,还有一点很重要的就是交互知识。
我们提出从状态表示到认知体和决策,通过交互的过程产生的偏差能够实现知识的生长和知识的利用。
有人说这是在造词,实际上Bcent翻译成中文就是知行体,究竟和智能体有什么不一样呢?智能体考虑的是从状态到Action的映射过程,知行体考虑的是感知体和行为体要不断交互,所以从信息输入来说智能体是被动的,知行体是主动的,智能体主要是信息交互,知行体是物理交互,而从应用领域来讲,智能体很多用于辅助推理和决策,知行体主要是认知和行为。
我们来看感知部分,刚才谈到感知应该是一个闭环,感知体到数据O,然后映射到空间状态,最后通过感知体作用到行为体,通过行为增强感知,鹰在捕猎的时候用的就是这个过程。我们提出不需要候选窗的目标检测算法,这个动作强调的是两个模态信息融合,传统方法需要在物理位置和时间形成同步,同时实现对齐,这个条件无疑是太苛刻了,那么有没有办法呢?我们通过通道编码和交互的办法可以减弱这个要求,现在是通过红外和可见光,另外就是目标检测,现有的目标用的很多都是单模态,第一次实现从可见光和红外相结合的检测方法,特别适合夜晚的作业过程。
可以看到我们用知行体、智能体和行为体的交互实现主动感知,相比传统方法,整个调节时长大大缩短,耗时的准确性大大提高。
究竟怎么去做认知体呢?我们希望机器有一个人的大脑,形象地讲就是如何从特征空间到概念空间到知识空间,机器就是根据知识库和现有的状态进行规划,规划的作用应该是什么样子,这个作用的状态对应的就是期望的状态,机器人操作过程又产生实际状态,这里就会有一个交互残差,一方面是修改知识库,另一方面是通过底层控制,就是从两条途径消除偏差。规划和控制之间是一个双向关系,传统的是一个单向关系。
我们的传统方法就是根据知识库规划一条痕迹,可能不一定能够达到期望的位置,中间就会产生交互残差,这样会有两个部分:通过知识库模糊化,这里还有新的方法来做,认知体里面有知识,然后产生下一个时刻的期望状态,两个状态有一个差,然后把这个时刻的交互残差算出来,根据刚才讲到的修改知识库再去操作完成这个过程。大家看到这个方法和传统的控制方法、机器学习的强化模型不一样,最大的不一样就是整个任务规划控制之间有修正过程,也就是说规划期需要通过知识库修改。
可以看到通过4次学习就可以很快稳定下来,最近从六连杆机器人来看比传统的强化学习方法收敛性大大提高,至少提高5倍甚至更多。人手把手地教机器人学习和机器人仅仅通过眼睛来看学习,二者之间究竟存在什么关系?主要就是一个散度,这个散度可以算出来,然后可以增强视觉学习方法。
基于示教的学习下一步性能的提高就是通过人工智能的算法,行为空间中找到最优解。基于偏好的算法,我们能不能让人工智能把偏好学出来,我们通过轨迹概率来把特殊的技能定义出来,对抗式学习产生满足这个偏好的最佳样板,从而让机器人学习,久而久之机器人就把这种行为学到了,我们可以学习某些总经理管理的偏好。
接下来介绍一下团队的工作:移动双臂机器人上面有很多传感器,这是到指定场所做的拆弹的工作,其中用到主动视觉感知和触觉感知,包括声音感知,通过双臂协调完成包扎物的拆卸。这是无人机上的两个机械臂,其中有各种传感器,我们大概装了三种传感器,红外可见光、避光相机,这是在黑夜什么都看不见的地方,通过多模态融合实现目标检测,图中是单向静态抓取任务以及视觉伺服,空中对爆炸物进行隐性的解除。
最后就是未来展望,今天我们谈到的认知体就是一个脑袋的问题,实际上很多情况下是一个平台加上多个臂,那么这种结构就显得非常重要,多认知体的协同是未来理论非常重要的工作,如何在动态场景下实现机器工作的协同。比如美国做的有人机和无人机的协同,再就是在云端环境下如何实现分布式的操作和感知,如何在框架实现知识和数据的有机结合。比如大象是通过记忆记录自己的行迹,而且会利用知识实现自己的行为。