< 上一版下一版 > PDF版

奥比中光CEO黄源浩：大模型对机器人产业影响巨大

作者：金旺时间：2023/9/11 9:48:26 字体【小中大】

来自中国机器人产业发展报告的数据显示，2022年，中国服务机器人市场规模首次超过了工业机器人。

而之所以有这样的发展趋势，离不开这些年人工智能技术在机器人领域的推广应用。

实际上，智能化已经是机器人产业的大势所趋，而且有了推动机器人产业发展的可能，就连全球机器人领域明星企业波士顿动力，也在2022年成立了人工智能研究院，在花大力气研究机器人的认知智能和运动智能。

其中，视觉智能又是这些年在机器人领域应用最广，也是不少机器人能够在封闭或半封闭空间实现“自动驾驶”的关键。

2023年7月，来自GGII的统计数据显示，在3D视觉传感器这一细分领域，奥比中光在中国服务机器人领域2022年的市占率达到了71.09%。

奥比中光董事长兼CEO黄源浩称：“奥比中光2013年成立，2015年就开始为机器人产业提供3D视觉传感器。”

他认为，大模型对于整个机器人产业的影响堪比“核弹”。

在WRC 2023现场，我们与黄源浩进行了一次深入交流，聊了聊大模型如何影响机器人产业、人形机器人软硬件如何协同发展，以及奥比中光在机器人领域的产业布局。

“核弹”大模型，变革机器人

问：大模型，尤其是视觉大模型的出现，对机器人产业有怎样的影响？

黄源浩：视觉大模型和语言大模型类似，都是基于谷歌在2017年提出的transformer架构。

这让机器视觉经历了一次从基于CNN的架构到基于transformer架构的变化，机器人由此也变得聪明了很多。

为什么这么说？

因为基于CNN架构的机器视觉算法模型的学习过程需要大量的样本数据，这样的模型和你下1万盘棋，它记住了怎么下棋，也就学会了下棋。

但基于transformer架构的机器视觉算法模型，可能只需要很小的样本，在下棋方面就有了不错的能力，这样的大模型已经接近零样本学习，甚至已经和人脑的学习模式有点相似了。

这就让机器人有了类脑的能力，能够实现端到端控制，你只需要输入各种感知信息，输出直接就是动作了。

这也是为什么我会觉得大模型对于机器人产业而言会是一个核弹，因为它让机器人有了和人相似的运动控制模式。

问：大模型对3D视觉技术发展，会有怎样的影响？

黄源浩：现在大模型在朝着多模态方向发展，而多模态的大模型，本身已经在以图像、3D图像，甚至热成像图像作为输入数据了，这是它需要的一个基础信息。

另外就3D视觉而言，基于激光雷达和大模型两种方式的视觉技术是相辅相成的。

基于激光雷达的视觉技术更精准，但远距离定位能力会有所缺失；基于大模型的视觉技术现在还没那么精准，工作模式类似人眼，但它能够实现远距离定位。

我有一个观点是，未来机器人在某些方面的性能会比人表现得更好，比如机器人的感知能力。

问：现在3D视觉在机器人的认知智能和运动智能上，分别能实现哪些功能？

黄源浩：认知智能其实更容易做，现在也已经做得很不错了，现在基于3D图像数据训练的视觉模型，进行一些测距等工作已经比人更精准，将来基于这类模型的机器人很有可能会比人更聪明。

例如人如果要将一个凳子从一个地方搬到另一个地方，用肉眼观察通道的宽度，可能不知道是否能搬得过去，机器人看一眼就能测量出结果，这就是机器人比人厉害的地方，其中实现的就是认知智能。

至于涉及决策、规划、控制等运动智能，目前有些企业或者机构做的是确定性模型，基于确定性模型的机器人可能拍出来的运动演示视频很好看，但在实际演示过程中，可能失败几百次后调了某一个参数，然后再测试几百次，又调了另外一个参数，这样往复测试才拍出一个不错的demo视频。

然而，这样实现的运动模型目前没有泛化能力，如果换到一个新的环境，模型也就无法完全适用了，这也是为什么像波士顿动力这样已经创立了超过30年的公司仍没能实现商业化的原因。

大模型到来之后，只要把基于transformer架构的大模型部署好，随着数据不断输入，机器人就可以做各种动作；当成功做出一个动作，这样产生的就是一个好的样本数据，没成功就是一个不好的样本数据……。慢慢地，它自己就能学会如何运动。

大模型的参数量级非常大，普遍都在10亿级乃至百亿级，如果纯靠人，是无法实现这样级别的参数调参的。因而，企业基于确定性模型研发的机器人，如果再迁移到新模式上，可能只能贡献10%—20%的能力，80%—90%都要基于transformer框架重新再做模型训练。

今年大模型发展这么迅速，接下来你会发现，无论是四足机器人，还是人形机器人，它的进化速度会比原来快很多。

明年世界机器人大会上，相信我们就会看到，这些机器人已经聪明很多了。

今年大会上的机器人还没有很多互动演示，估计明年至少四足机器人会出现比较好的互动能力，后年人形机器人也可能会有很好的互动能力，甚至能跑起来。

人形机器人，软硬件发展如何协同

问：激光雷达、3D视觉在人形机器人上，现在有怎样的应用？

黄源浩：现在人形机器人产品中，基本有传感器，激光雷达、避障传感器正常也都有。

实际上，人形机器人未来必然会有多种传感器做数据输入，像特斯拉的多目方案会是一种输入方式，我们这种双目结构光传感器也会是一种输入方式，激光雷达当然也会是一种必不可少的输入方式。

目前人形机器人的功能、性能都还不够强，随着它的能力变得越来越强，量产能力上来了，元器件的成本也就会随之下降，这是一个产业化必然要经历的一个过程。

问：您如何看人形机器人未来的商用情况？

黄源浩：在我看来，人形机器人现在就像一个小孩，它一定会长大，长大过程中会逐渐学会一些技能，等到它18岁、20岁的时候，可能就能够实现普及应用了。

这么来看，其实还有20年，现在他才刚刚1岁，20年后人形机器人说不定会有几十亿个。

而要说人形机器人第一个商用场景，我认为大概率会是工业，像在汽车工厂里，未来人会越来越少，预计5—10年就能大规模实现无人化工厂了。其他诸如家庭陪伴这样的场景，我认为可能不会那么快到来，还需要一定时间。

问：人形机器人的软硬件技术如何协同发展？

黄源浩：当下人形机器人的智商和运动控制能力像是刚出生的孩子，但他的身体骨架已经接近七八岁，所以现在我们处于一个硬件发展快于软件算法发展的阶段。

可能再发展几年，硬件相对软件，又会变成短板。

例如机器人的关节，现在一个成年男性能够轻松抬起30公斤、50公斤的重物，但人形机器人拿5公斤、10公斤的重物就已经很难平衡行走了；

此外，人的关节可以用一辈子，但人形机器人的关节可能使用500次、1000次后，各项指标就会下降。

所以现在硬件也还没有准备好。

如果将人形机器人的软件和硬件比作它的两条腿的话，只有人形机器人的“两条腿”迈步走路，整个产业才能持续前进。

问：所以现在其实是硬件已经发展到一定阶段，软件算法需要跟上的阶段，而大模型的出现，让人们看到了人形机器人在软件上实现快速突破的可能。

黄源浩：传统人工智能可能短期还追不上人形机器人硬件的发展，但是大模型的出现大大加速了这个过程，同时，行业也在硬件上攻坚克难，往前迈步。

机器人迎来产业大分工

问：今年7月你们发布了一个机器人视觉产业技术中台，奥比中光具体在机器人领域有怎样的思考业务部署？

黄源浩：其实2016年我们就开始为机器人企业供货3D视觉传感器了，之前机器人出货量相对比较少，但7年下来，我们确实为机器人产业提供了很多视觉传感器。

其实transformer在2017年就被谷歌提出了，只是GPT、大模型的出现，让大家意识到了这个框架的强大， transformer架构出现的这几年，我们也一直在思考，也许大模型的出现会让机器人产业，站到20年前互联网行业发展初期的时间节点上，而它之后将会保持高速发展。

在机器人产业中，未来除了陪伴类机器人会是大批量出货的产品外，还会有几十亿小批量、多型号、多机种的各类机器人。

现在机器人企业很多，未来经过大浪淘沙后，还会有两三千家机器人企业。

现在每个机器人企业都得自己做关节、传感器、模型算法等等，这种模式的投入产出比显然是不够的。

对于机器人这个新兴产业，尤其是人形机器人，没有自研技术，就很难获得资本市场青睐。

但随着产业的发展，市场的关注点会逐渐从技术这个单一维度转向更注重投入产出比。投入产出比能否至少打平，就成了一个企业未来是否能够融到资金的关键。

我的观察是，现在强调自研能力的机器人企业，慢慢会转向外采，整个产业会走向一个更符合现在商业世界规则的大分工时代。

这也是为什么我们会做一个产业技术中台。从技术角度看，奥比中光的综合能力很强，从传感器、雷达、模型算法，到小批量多机种的机器人制造，我们都积累了很强的能力。

就制造角度而言，机器人行业更需要的小批量、多机种的制造，这也是奥比中光的优势。

我们对机器人视觉产业技术中台的定位是，不做机器人（整机）品牌，但是整个机器人产业需要的诸如视觉传感器、激光雷达等提供通用能力的产品，我们会尽我们所能去提供，并邀请生态伙伴一起进来，推动整个机器人产业发展。

问：奥比中光机器人业务目标要实现怎样的业务规模？

黄源浩：机器人产业每年肯定是持续上升的，也会是我们一条持续增长且增长很快的业务线。

（文章来源：科技行者techwalker）

奥比中光CEO黄源浩： 大模型对机器人产业影响巨大

奥比中光CEO黄源浩：大模型对机器人产业影响巨大