银河通用王鹤:用三维视觉小模型+基础大模型实现具身智能

随着通用人工智能的浪潮来袭,具身智能也成了一个热门研究方向。

在近日上海举办的首届具身智能大会上,有专家认为,通用人工智能是人类一个永恒的目标,但很可能永远都达不到;有专家认为,大家对大数据和大模型关注度太高了,现在的人形机器人应该更多关注机器人本体。

而关于具身智能,身为北京大学计算机学院前沿计算研究中心(CFCS)助理教授、博士生导师,同时又是银河通用机器人公司创始人的王鹤认为,谷歌RT-2Figure给出的不是最优解,三维视觉小模型+基础大模型会是实现具身智能的一条路径。

为什么这样认为。对此,王鹤在具身智能大会具身多模态大模型论坛上给出了解释,科技行者就这一演讲关键内容进行了不改变原意的整理:

机器人从动嘴到动手有多难

最近,具身多模态大模型非常火,我们看到了OpenAIFigure的联合演示,也知道英伟达最近在GTC 2024上宣布了Project GR00T计划。这其中,一个重要问题是,通用机器人必须拥有一套通用的模型。

这样的模型有人叫它机器人基础大模型,也有人称为具身多模态大模型。它的本质是能够将语言、视觉和其他机器人本体(包括本体传感器)在内的融合信息当作输入信息,而输出的一定是动作,不只是动动嘴。

具身多模态大模型和非具身多模态大模型最大的区别是,能不能输出让机器人运动起来的动作指令。

实际上,谷歌是最早对这一问题进行探索的公司,他们这几年在RT系列上的工作备受全球关注。

例如,RT-1上就搭载了谷歌多模态大模型和多模态动作小模型,其中,大模型负责的是控制指令分解,例如打开抽屉,将物体从抽屉里拿出来等。

RT-2是一个更加端到端的系统,它的模型可以直接输出动作,而且是在一个完全开放环境中进行操作,可以做到“把香蕉放到第二个位置”“把草莓放到正确的碗里”。什么是“正确的”碗里,在这里很重要。

这其实是把多模态大模型背后的理解、规划、动作模型输出的交互能力融为了一体。这样的模型是端到端的视觉-语言-动作模型,直接输出机器人末端六自由度的位姿。

这类模型的出现,是否就意味着今天已经有了具身多模态大模型或机器人基础模型了呢?我个人的答案是,不是。

两大难题:泛化能力、响应速度

那么问题在哪里呢?第一个问题是泛化性差。

谷歌RT系列的动作数据,虽然覆盖了移动、抓取、放下这些移动场景中很多任务,但是场景非常单一,只是在谷歌的厨房里。这一模型在他们的厨房里执行任务的成功率相当高,数据显示,在这个场景中,它执行任务的成功率高达97%。但一旦出了这个厨房,到了一个不熟悉的环境中,RT-1执行任务的成功率就会大幅下降。

RT-2通过把互联网上的视频作为辅助训练数据,这在一定程度上提升了模型的泛化能力,但是由于进行数据采集的厨房里桌子的高度是固定的,一旦在真实世界里桌子的高度与训练数据中桌子的高度有较大差异,就无法再执行这样的动作。

即便如此,收集这些数据,谷歌依然花了上千万美金。

第二个问题是慢。

谷歌RT-2这样的端到端大模型,用55B的模型,运动频率只能做到1-3Hz,实际视频中展示出的运动效果都经过了加速。而FigureOpenAI展示出的Demo是原倍数播放的,动作一气呵成,看起来非常舒服。

Figure背后的模型有多快呢?Figure给出的官方说法是,这个模型能达到200Hz的输出频率,也就是说,它执行动作的延时只有5ms,谷歌如果将模型压缩到5B,也只能达到50Hz,延时依然有200ms,比Figure慢了几十倍。

Figure的技术虽然快而且丝滑,但它背后也是基于一个单一任务场景进行了大量的数据采集,实际上也不具备泛化性。

真正又快、又有泛化性的技术可能是什么样的呢?

具身智能关键:三维视觉小模型

我认为一种有效的途径是使用三维视觉小模型。

三维视觉具有几何的泛化性,它看到的物体几何即使颜色不一样,场景发生变化后,同一个物体的几何也拥有极大的相似性。把各种物体放到足够多场景中进行仿真,甚至把传感器都放进去仿真,就有可能通过合成数据和Sim2Real训练出一个又快、泛化能力又强的三维小模型。

今天分享的是我们的三层级具身多模态大模型系统:

在这个系统中,底层是硬件层。

中间层是具身智能的技能模型。它们通过三维视觉和仿真数据Sim2Real学习到一系列技能,包括可泛化的自动建图、可泛化的地图导航、物体抓取、关节类物体操作、移动抓取操作、叠衣服、挂衣服等技能,这些都是三维视觉小模型。

上层是任务规划模型。用GPT-4VEmu2等多模态大模型做任务规划者,通过它们来调用中间层的小模型。

一个指令进来后,大模型负责安排调用小模型,小模型执行完后,大模型根据状况,再研究下一步如何做。

例如,如何做到开放指令中的“关”。这需要覆盖很多任务,包括怎么打开一个从未见过的家用电器的门、拉抽屉、提盖子、打开微波炉、用榨汁机等,可以把它通俗地归纳为泛化的家用电器操作。

我们在2023CVPR的论文GAPartNet提出了一个数据集,总结了家用电器9种常见的零部件。将真实世界里80%-90%的家用电器、家具上要用手操作的零部件进行了合成,形成了一个合成数据集,基于这个数据集,可以做到跨场景、跨类别的泛化。

一个机器人从未见过的柜子,可以分割出它的抽屉、把手,标注出把手的位姿,这样就可以实现跨类别、跨物体的泛化位姿。这是一个类别级位姿,可以告诉机器人从哪个方向去接近它、沿哪个方向去拉。这样的能力就能让机器人去执行开门、拉抽屉等动作。

这些都是基于三维视觉看到零部件的点云后,进行的感知+位姿估计+动作组合,这样的模型还可以在没有见过的物体类别上得到零部件的位姿和操作方法。

有了这些能力后,大模型如何调用这些小模型的API让机器人工作,就是我们最近在做的工作。

例如,看到一个从没见过的微波炉,GPT-4V不清楚它有哪些零部件。我们把基于三维视觉数据训练出的零部件分割和检测模型,在三维点云里所有零部件的数据检测出来,然后告诉GPT-4V,让GPT-4V生成关于这个场景的综合描述。

这样的描述可以是:这是一个微波炉,上面有一个转的门、一个直线型的手、一个按钮。

这时,只要给GPT-4V几个API端口,它就可以跨物体类别去调用这些API。在微波炉例子中,它就调用了抓取、绕轴转90°的API。这其中,抓取、绕轴转、90°都是它自己填写的。

三维视觉小模型负责告诉它抓的位置、转轴的位置,生成圆周的轨迹,这样就形成了机器人的动作。

在这个操作过程中,会遇到门强拉不开的问题。不断将相应的位姿反馈给机器人,它会根据上一次描述中的按钮,执行按按钮操作。这样,GPT4V作为一个大脑,不断反馈下一步应该怎么做、重新规划方案,就可以将门打开了。这就体现了大模型和三维视觉小模型互动,共同完成机器人操作任务。

那么什么是未来的多模态具身大模型或机器人基础模型?

一个思路是,类似于FigureGPT-4V大模型在顶层,中间层是一些响应很快的小模型,如三维视觉小模型,最后形成了可泛化的任务执行能力。

那么,什么是终极具身智能呢?

什么时候能做到类脑模型,把所有的模态数据全放到数据集中,还能拥有足够快的响应速度,还能听得懂语义,就能做到真正的具身智能。