奥比中光CEO黄源浩: 大模型对机器人产业影响巨大

来自中国机器人产业发展报告的数据显示,2022年,中国服务机器人市场规模首次超过了工业机器人。

而之所以有这样的发展趋势,离不开这些年人工智能技术在机器人领域的推广应用。

实际上,智能化已经是机器人产业的大势所趋,而且有了推动机器人产业发展的可能,就连全球机器人领域明星企业波士顿动力,也在2022年成立了人工智能研究院,在花大力气研究机器人的认知智能和运动智能。

其中,视觉智能又是这些年在机器人领域应用最广,也是不少机器人能够在封闭或半封闭空间实现“自动驾驶”的关键。

20237月,来自GGII的统计数据显示,在3D视觉传感器这一细分领域,奥比中光在中国服务机器人领域2022年的市占率达到了71.09%

奥比中光董事长兼CEO黄源浩称:“奥比中光2013年成立,2015年就开始为机器人产业提供3D视觉传感器。

他认为,大模型对于整个机器人产业的影响堪比“核弹”。

WRC 2023现场,我们与黄源浩进行了一次深入交流,聊了聊大模型如何影响机器人产业、人形机器人软硬件如何协同发展,以及奥比中光在机器人领域的产业布局。

“核弹”大模型,变革机器人

问:大模型,尤其是视觉大模型的出现,对机器人产业有怎样的影响?

黄源浩:视觉大模型和语言大模型类似,都是基于谷歌在2017年提出的transformer架构。

这让机器视觉经历了一次从基于CNN的架构到基于transformer架构的变化,机器人由此也变得聪明了很多。

为什么这么说?

因为基于CNN架构的机器视觉算法模型的学习过程需要大量的样本数据,这样的模型和你下1万盘棋,它记住了怎么下棋,也就学会了下棋。

但基于transformer架构的机器视觉算法模型,可能只需要很小的样本,在下棋方面就有了不错的能力,这样的大模型已经接近零样本学习,甚至已经和人脑的学习模式有点相似了。

这就让机器人有了类脑的能力,能够实现端到端控制,你只需要输入各种感知信息,输出直接就是动作了。

这也是为什么我会觉得大模型对于机器人产业而言会是一个核弹,因为它让机器人有了和人相似的运动控制模式。

问:大模型对3D视觉技术发展,会有怎样的影响?

黄源浩:现在大模型在朝着多模态方向发展,而多模态的大模型,本身已经在以图像、3D图像,甚至热成像图像作为输入数据了,这是它需要的一个基础信息。

另外就3D视觉而言,基于激光雷达和大模型两种方式的视觉技术是相辅相成的。

基于激光雷达的视觉技术更精准,但远距离定位能力会有所缺失;基于大模型的视觉技术现在还没那么精准,工作模式类似人眼,但它能够实现远距离定位。

我有一个观点是,未来机器人在某些方面的性能会比人表现得更好,比如机器人的感知能力。

问:现在3D视觉在机器人的认知智能和运动智能上,分别能实现哪些功能?

黄源浩:认知智能其实更容易做,现在也已经做得很不错了,现在基于3D图像数据训练的视觉模型,进行一些测距等工作已经比人更精准,将来基于这类模型的机器人很有可能会比人更聪明。

例如人如果要将一个凳子从一个地方搬到另一个地方,用肉眼观察通道的宽度,可能不知道是否能搬得过去,机器人看一眼就能测量出结果,这就是机器人比人厉害的地方,其中实现的就是认知智能。

至于涉及决策、规划、控制等运动智能,目前有些企业或者机构做的是确定性模型,基于确定性模型的机器人可能拍出来的运动演示视频很好看,但在实际演示过程中,可能失败几百次后调了某一个参数,然后再测试几百次,又调了另外一个参数,这样往复测试才拍出一个不错的demo视频。

然而,这样实现的运动模型目前没有泛化能力,如果换到一个新的环境,模型也就无法完全适用了,这也是为什么像波士顿动力这样已经创立了超过30年的公司仍没能实现商业化的原因。

大模型到来之后,只要把基于transformer架构的大模型部署好,随着数据不断输入,机器人就可以做各种动作;当成功做出一个动作,这样产生的就是一个好的样本数据,没成功就是一个不好的样本数据……。慢慢地,它自己就能学会如何运动。

大模型的参数量级非常大,普遍都在10亿级乃至百亿级,如果纯靠人,是无法实现这样级别的参数调参的。因而,企业基于确定性模型研发的机器人,如果再迁移到新模式上,可能只能贡献10%20%的能力,80%90%都要基于transformer框架重新再做模型训练。

今年大模型发展这么迅速,接下来你会发现,无论是四足机器人,还是人形机器人,它的进化速度会比原来快很多。

明年世界机器人大会上,相信我们就会看到,这些机器人已经聪明很多了。

今年大会上的机器人还没有很多互动演示,估计明年至少四足机器人会出现比较好的互动能力,后年人形机器人也可能会有很好的互动能力,甚至能跑起来。

人形机器人,软硬件发展如何协同

问:激光雷达、3D视觉在人形机器人上,现在有怎样的应用?

黄源浩:现在人形机器人产品中,基本有传感器,激光雷达、避障传感器正常也都有。

实际上,人形机器人未来必然会有多种传感器做数据输入,像特斯拉的多目方案会是一种输入方式,我们这种双目结构光传感器也会是一种输入方式,激光雷达当然也会是一种必不可少的输入方式。

目前人形机器人的功能、性能都还不够强,随着它的能力变得越来越强,量产能力上来了,元器件的成本也就会随之下降,这是一个产业化必然要经历的一个过程。

问:您如何看人形机器人未来的商用情况?

黄源浩:在我看来,人形机器人现在就像一个小孩,它一定会长大,长大过程中会逐渐学会一些技能,等到它18岁、20岁的时候,可能就能够实现普及应用了。

这么来看,其实还有20年,现在他才刚刚1岁,20年后人形机器人说不定会有几十亿个。

而要说人形机器人第一个商用场景,我认为大概率会是工业,像在汽车工厂里,未来人会越来越少,预计510年就能大规模实现无人化工厂了。其他诸如家庭陪伴这样的场景,我认为可能不会那么快到来,还需要一定时间。

问:人形机器人的软硬件技术如何协同发展?

黄源浩:当下人形机器人的智商和运动控制能力像是刚出生的孩子,但他的身体骨架已经接近七八岁,所以现在我们处于一个硬件发展快于软件算法发展的阶段。

可能再发展几年,硬件相对软件,又会变成短板。

例如机器人的关节,现在一个成年男性能够轻松抬起30公斤、50公斤的重物,但人形机器人拿5公斤、10公斤的重物就已经很难平衡行走了;

此外,人的关节可以用一辈子,但人形机器人的关节可能使用500次、1000次后,各项指标就会下降。

所以现在硬件也还没有准备好。

如果将人形机器人的软件和硬件比作它的两条腿的话,只有人形机器人的“两条腿”迈步走路,整个产业才能持续前进。

问:所以现在其实是硬件已经发展到一定阶段,软件算法需要跟上的阶段,而大模型的出现,让人们看到了人形机器人在软件上实现快速突破的可能。

黄源浩:传统人工智能可能短期还追不上人形机器人硬件的发展,但是大模型的出现大大加速了这个过程,同时,行业也在硬件上攻坚克难,往前迈步。

机器人迎来产业大分工

问:今年7月你们发布了一个机器人视觉产业技术中台,奥比中光具体在机器人领域有怎样的思考业务部署?

黄源浩:其实2016年我们就开始为机器人企业供货3D视觉传感器了,之前机器人出货量相对比较少,但7年下来,我们确实为机器人产业提供了很多视觉传感器。

其实transformer2017年就被谷歌提出了,只是GPT、大模型的出现,让大家意识到了这个框架的强大, transformer架构出现的这几年,我们也一直在思考,也许大模型的出现会让机器人产业,站到20年前互联网行业发展初期的时间节点上,而它之后将会保持高速发展。

在机器人产业中,未来除了陪伴类机器人会是大批量出货的产品外,还会有几十亿小批量、多型号、多机种的各类机器人。

现在机器人企业很多,未来经过大浪淘沙后,还会有两三千家机器人企业。

现在每个机器人企业都得自己做关节、传感器、模型算法等等,这种模式的投入产出比显然是不够的。

对于机器人这个新兴产业,尤其是人形机器人,没有自研技术,就很难获得资本市场青睐。

但随着产业的发展,市场的关注点会逐渐从技术这个单一维度转向更注重投入产出比。投入产出比能否至少打平,就成了一个企业未来是否能够融到资金的关键。

我的观察是,现在强调自研能力的机器人企业,慢慢会转向外采,整个产业会走向一个更符合现在商业世界规则的大分工时代。

这也是为什么我们会做一个产业技术中台。从技术角度看,奥比中光的综合能力很强,从传感器、雷达、模型算法,到小批量多机种的机器人制造,我们都积累了很强的能力。

就制造角度而言,机器人行业更需要的小批量、多机种的制造,这也是奥比中光的优势。

我们对机器人视觉产业技术中台的定位是,不做机器人(整机)品牌,但是整个机器人产业需要的诸如视觉传感器、激光雷达等提供通用能力的产品,我们会尽我们所能去提供,并邀请生态伙伴一起进来,推动整个机器人产业发展。

问:奥比中光机器人业务目标要实现怎样的业务规模?

黄源浩:机器人产业每年肯定是持续上升的,也会是我们一条持续增长且增长很快的业务线。

(文章来源:科技行者techwalker