AI给世界带来哪五个本质变化

如果说之前的Wintel组合”代表了PC时代,“谷歌高通”组合代表移动互联网时代,那么现在的“OpenAI英伟达”组合则代表了新AI时代。而算力又是当前最为稀缺的AI资源之一(数据同样稀缺,下一代算法还没有眉目),所以我就结合NVIDIA创始人兼CEO黄仁勋在中国台湾地区的台北国际电脑展(COMPUTEX 2024)的发言,谈一下AI正在给世界带来的五个变化。

AI是新的发动机

如果没记错的话,第四次工业革命的说法已经说了十年,但大家之前没感受到这个新工业革命到底“新”在哪。但ChatGPT问世,让AI基本上通过了图灵测试,创造了一个真正的分水岭。生成式AI带来的本质变化是,算力创造了一个新的发动机,也建设了一个新的AI工厂。

用黄仁勋的话说,最初作为超级计算机出现的设备,演化为一个高效运转的人工智能数据中心,它不断地创造产出,不仅生成Token,更是一个创造价值的人工智能工厂,“这些Token可以是单词、图像、图表、表格,甚至是歌曲、文字、语音和视频。Token可以代表任何具有明确意义的事物,无论是化学物质、蛋白质、基因,还是天气模式”。

生成式AI让计算到产出的路径极大程度缩短。原来的产出工作流是七个步骤:电能-计算-系统-编程-软件-应用-产出,现在直接缩短成三个步骤:电能-模型-智能,(虽然最终也需要Prompt提示词才能使用模型,但是提示词是基于自然语言的),这让计算机的价值很容易被使用,也很容易被衡量。这和之前的蒸汽机、内燃机、电动机的道理是一样的,电能直接转化为生产力,只不过AI引擎输出的不是动力,而是脑力。

软件业消亡或者重生

操作系统是人类操作计算机的底座,我一直有个看法,操作系统的更新换代,就是交互界面的更新换代,大概每20年就有一代。IBM PC开启的DOS,以键盘为交互方式;微软开发的Windows,由鼠标为交互方式;苹果创造的iPhone时刻,是由手指触屏为交互方式;现在看来,以OpenAI开启的自然语言交互,是真正的交互方式换届。

但是,这个变革不止改变了操作系统的逻辑,还改变了软件业的逻辑。此前的操作系统,是由软件和编程语言原来承载了计算机和人类之间的信息交换,现在则改为由模型+提示词。

黄仁勋也提到,“应用层也因此发生了变革:过去,应用程序是由指令编写的;而现在,它们通过组装人工智能团队来构建。虽然编写程序需要专业技能,但几乎每个人都知道如何分解问题并组建团队。因此,未来的每家公司都会拥有一个庞大的Nim集合。你可以根据需要选择专家,将它们连接成一个团队”。

这也让我想起OpenAI创始成员,也是前特斯拉人工智能主管Andrej Karpathy202315日发的一个推文“最热门的新编程语言是英语”。(Nim是一个集成化的人工智能容器解决方案,包含了庞大的软件集合,如CUDACUDACNNTensorRT,以及Triton推理服务)

如果说SaaS方式消灭了传统软件的身体,是软件业的自我革命。那么模型即将要消灭的,是传统软件业的灵魂。软件这个概念永远存在,但是外在和内在都被新技术撕碎。接下来,软件业要么逐渐消亡,要么以新的方式重生。

网络就是计算机

“网络即计算机”是Sun公司的第21号员工约翰·盖奇在 1984 年为公司创造的一句口号。Wired杂志将这句话称为“硅谷的真理”。

不过当时约翰·盖奇的灵感来自于互联网,他在2019年的一个播客节目中说,当Sun推出第一台科学工作站时,它们并不是非常强大的计算机,但是有一个巨大的屏幕,可以到互联网,被设计为超级计算机的补充组件。但是现在的“网络就是计算机”,计算机不是互联网,是超计算机本身。

因为,现在AI算力的之所以能实现新的指数级飞跃,靠的不再是传统的芯片制程和芯片内的架构创新,而是芯片间的互联网,或许我们可以称之为internet of chips(芯联网)。由Scalling Law所驱动的AI算力需求,正在让我们看到万卡集群,再到未来的十万卡,百万卡集群,芯片所构成的网络,形成一个巨大的计算机。所以黄仁勋说,原来一颗小小的芯片是GPU,现在一个庞大的机柜也是一颗GPU

IBM当年说世界有五台计算机就够了,从模型训练的大规模集群而言,或许未来真的只需要五台计算机。当然,我们说的是在训练层面、在推理层面和端侧AI层面,依然是百花齐放的。

黄仁勋在演讲中着重介绍了MGX系统,整个系统中,有共计72GPU,构成了一个庞大的计算集群。这些GPU通过全新的MV链接技术紧密相连,又形成了一个无缝的计算网络。“当使用ChatGPT这样的模型时,其背后是庞大的软件堆栈。这个堆栈复杂而庞大,因为模型拥有数十亿到数万亿个参数,且不仅在一台计算机上运行,而是在多台计算机上协同工作”。

智能的第一次并行

从计算机的并行,我们可以延续谈一下智能的并行。

软件工程领域有一个著名的布鲁克斯定律(Brooks' Law),说向一个已经延迟的项目中增加人力,往往会使项目更加延迟。即随着团队规模的扩大,沟通成本和管理开销也会增加,从而可能抵消增加人力带来的收益。

在社会心理学领域,也有一个社会性懈怠(Social Loafing),当人们在团队中工作时,个人的努力程度会比单独工作时降低,是因为个人在团队中感到责任分散,或者认为自己的贡献不重要。

所以,两个员工协同办公,效率未必能上升一倍,如果安排不当,甚至效率会降低。我想这也是996的本质原因,让一个人拼命干,比多个人合作干效率要高得多。其原因除了心理学因素之外,还在于人类间的数据无法共享,多个人难以处理同一个子项目,背后是智能无法并行。

但是这个问题对于大模型而言并不存在,万卡、百万卡互联的计算机,就是为处理共享数据而生的,实现了智能的并行。当然,智能的并行(数据、管道、张量)也存在技术难度,如何优化卡间通信,实现信息对齐?

黄仁勋解释其中的难题在于延迟,通信模式的特点是高度突发性的流量,重要的不是平均吞吐量,而是最后一个到达的数据,因为如果你正在从所有人那里收集部分结果,并且我试图接收你所有的部分结果,如果最后一个数据包到晚了,那么整个操作就会延迟(木桶原理)。

总之,AI可以一起工作,一个AI会,就是所有AI会,从而实现更大的智能程度。但是人类不能,三个臭皮匠也无法抵得上一个诸葛亮,某种程度三百个也不行。

大模型的下一步是物理世界

现在的大语言模型,一定不是AGI的终点。我们可以做一个“第一性原理”思考,真实世界有两个部分组成,一个是头脑世界,基于无形的信息;一个物理世界,基于有型的实体。

现在的LLM,只是在头脑信息层面运行,没有触及实体世界。AI(特别是生成式AI)和实体世界的接触,还需要人作为界面,只要这一点没有改观,AI就很难说是完全体(这也是Meta首席人工智能科学家杨立昆Yann LeCun抨击语言模型路线的原因,斯坦福大学教授李飞飞也认为语言模型多少参数都无法突破这一本质)。

黄仁勋的解决方法是物理人工智能,“物理人工智能正引领人工智能领域的新浪潮,它们深谙物理定律,并能自如地融入我们的日常生活。为此,物理人工智能不仅需要构建一个精准的世界模型,以理解如何解读和感知周围世界,更需具备卓越的认知能力,以深刻理解我们的需求并高效执行任务”。

而对于物理智能而言,一个很重要的智能载体,可能是人形机器人。黄仁勋在今年NVIDIA GTC大会和Computex上的演讲,都以人形机器人亮相为结尾。当然,这其中也存在重要的商业机会,“与其他类型的机器人相比,训练人形机器人需要大量的数据。由于我们拥有相似的体型,通过演示和视频能力提供的大量训练数据将极具价值”。

判别式AI时代,重头戏是视觉;生成式AI时代,重头戏是语言;AGI时代,或许是两者兼有(最终像圣斗士一样实现阿赖耶识,突破超越人类的既有感知)。