打造AI技术栈,让企业轻松构建AI原生应用
2024年12月2日,亚马逊云科技一年一度的re:Invent大会在美国拉斯维加斯召开。大会期间,人们看到了亚马逊云科技的新一代计算实例、看到了新一代AI芯片,也看到了亚马逊云科技在生成式AI领域密集的战略部署。
更让现场观众感到意外的是,苹果高管——机器学习和AI高级总监Benoit Dupin难得一见地亲临现场为亚马逊云科技站台,并透露,其备受关注的Apple Intelligence,正是基于亚马逊云科技的服务。
仅仅是在十几天后,12月18日,亚马逊云科技再次将2024 re:Invent大会带到了上海。在上海发布会现场,人们重温了亚马逊云科技Amazon EC2 Trn2实例、Amazon Aurora DSQL、Amazon Graviton4、Amazon Nova等新一代产品的新特性,也与亚马逊云科技大中华区解决方案架构总经理代闻一起聊了聊他们对当下人工智能技术的理解和布局。
作为云计算的主要推动者之一,亚马逊云科技的基石产品Amazon EC2的更新,成了每年的一大看点。
Amazon EC2实例是如何推陈出新的呢?据代闻透露,这主要依赖其背后的底层平台Amazon Nitro System的持续迭代。
亚马逊云科技的Nitro系统自2017年正式对外发布以来,已经迭代了多个版本,作为亚马逊云科技旨在帮助Amazon EC2进行硬件卸载、提高网络和存储性能,以及提高虚拟化安全性的技术,如今的Nitro系统已经成为亚马逊云科技软硬件一体化发展的重要基础。
为了推动计算实例的发展,亚马逊云科技团队将Nitro系统进行了解耦,即将完整的虚拟化软件堆栈部署于独立于计算服务器的Nitro系统上,让底层虚拟化平台与上层计算实例分离。
这样设计的好处是,亚马逊云科技可以分别推进两部分产品的演进——底层硬件吞吐、存储虚拟化、计算虚拟化完全在Nitro系统中进行,上层可计算实例也可以独立发展。
得益于这样的产品发展策略,亚马逊云科技在2020年对外发布了Amazon EC2 Mac实例,实现了在Amazon EC2上运行Mac系统。
不可否认的是,借助软硬结合理念,苹果在全球取得了巨大的成功,不过,亚马逊云科技同样是这一理念的忠实拥趸。
早在2018年,注意到ARM芯片架构的重要性后,亚马逊云科技开始着手自主研发CPU,在这之后,亚马逊云科技特别针对云计算设计优化了Neoverse架构,今年基于这一架构的第四代Amazon Graviton4也在今年早些时候正式对外发布。
与此同时,面向人工智能应用,亚马逊还在2019年推出了首款推理芯片Amazon Inferentia,2022年推出了首款训练芯片Amazon Trainium1,2023年官宣了Amazon Trainium2开发计划。
本次亚马逊云科技发布的Amazon EC2 Trn2计算实例也正是搭载了Amazon Trainium2。
搭载自研的Amazon Trainium2的Amazon EC2 Trn2计算实例,是目前亚马逊云科技推出的最强自研芯片的AI实例,相较于当前基于H100的GPU实例,Amazon Trainium2的性价比提升了30%到40%。
值得注意的是,Amazon Trainium2底层硬件工作原理与GPU不同,是以Systolic Array(脉动阵列)方式来运行,这颗芯片工作时会和HBM(高带宽内存)模块一起封装在SoC中。
这其中,以什么样的计算单元,又以多少个HBM模块、采用怎样的封装方式封装,这些因素决定了单颗芯片的内存带宽和计算能力。
代闻指出,“我们是面向现在机器学习训练和推理等不同场景,综合当下一些难题,反过来思考硬件应该如何重构、怎样设计,进而推出了这样的芯片。所以你会看到,从Trainium1到Trainium2,再到今年预发布的Trainium3,每一次更新都会逐步解决当下遇到的很多难题。”
此外,采用NeuronLink技术将搭载64个Amazon Trainium2的实例相连构成的Amazon EC2 Trn2 UltraServers服务器,单个计算节点峰值计算性能将超过83.2 Petaflops,这不仅为超大规模模型提供了更强的推理性能,而且由此构建超大规模训练集群的过程也将更加高效。
被视为OpenAI的头号对手的Anthropic正是采用了这一模式。
据悉,亚马逊云科技正在与Anthropic合作一个Project Rainier项目,这一项目旨在为Anthropic构建一个拥有数十万颗芯片的训练集群,这个新集群运算性能预计是目前Anthropic训练Claude的GPU集群的五倍以上。
值得注意的是,人工智能作为当下科技领域大势所趋,亚马逊不仅向AI独角兽Anthropic先后投资了共计80亿美元,还在今年的re:Invent大会上发布了自己的大模型产品,公布了自己的人工智能战略。
自2022年11月ChatGPT面世后,经过两年的爆炸式发展,生成式AI已经不再是一个可选项,而成了应用构建不可或缺的核心组件。
在代闻看来,“这次生成式AI与五六年前的人工智能发展有所不同,我们注意到很多需求其实是源于业务部门。”
代闻举了两个应用案例:其一是在企业营销领域,通过利用生成式AI生成营销文案、图片海报,极大地加快了整个营销方案生产流程、降低了营销方案制作复杂度;其二是在应用开发领域,生成式AI可以自动检测代码,大幅简化开发人员工作量,提升开发人员工作效率。
当在任何设计架构中都需要考虑如何为应用程序赋予生成式AI能力时,面对应用开发者各种各样的需求,如何选择模型就成了首先要考虑的问题。
代闻指出,“现在大模型各有所长,但没有任何一种模型可以解决所有问题。”
正是看到了这一趋势亚马逊云科技此次发布了Amazon Nova系列模型,6个模型,包括:快速文本生成模型Amazon Nova Micro,能够处理文本、图像和视频并生成文本的多模态模型Amazon Nova Lite、Amazon Nova Pro、Amazon Nova Premier,以及用于生成高质量图像的Amazon Nova Canvas和用于生成高质量视频的Amazon Nova Reel。
代闻在接受媒体采访时指出:“如今很多人在进行信息检索、人机交互、APP使用时,都已经开始借助大模型来完成。这就带来了从面向消费者(To C)到面向企业(To B)领域中,对于整个应用程序的重构,这种重构涉及能否开箱即用、开发人员能否更好地利用大模型为自己的应用程序赋能,以及底层平台能否具备更好的性价比等问题。”
为此,亚马逊云科技推出了Amazon Q Developer、Amazon Q Business和Amazon Q扩展更多应用场景,显著提升了开发效率、简化复杂任务,并为不同行业和应用场景提供可定制的智能解决方案。
以Amazon Q Developer为例,Amazon Q Developer此次推出了能够实现自动生成和执行单元测试、自动生成精准文档、自动执行代码审查流程的三款智能体,还推出了新的迁移功能,可以用于将.NET从Windows迅速迁移到Linux、将VMware工作负载迁移到云原生架构、通过应用转化加速大型机迁移,大幅提升开发人员在整个软件开发流程中的效率。
通过这些AI开发工具,亚马逊云科技旨在加速生成式AI应用开发效率,与此同时,亚马逊云科技还构建了面向开发者的生成式AI服务平台Amazon Bedrock。
Amazon Bedrock自2023年9月发布后,陆续上线了多种可选模型,包括LumaAI的Ray2、poolside的malibu和point、Stable Diffusion 3.5,以及本次发布的Amazon Nova系列模型,新推出的Amazon Bedrock Marketplace更是提供了100+模型可选项。
此外,据大会上公布信息显示,亚马逊云科技进一步就Amazon Bedrock增强了私有数据应用、AI安全、智能体功能,支持知识库微调、GraphRAG、结构化数据检索、自动推理检查、多智能体协作等新功能。
实际上,生成式AI不仅正在成为应用构建的核心组件,也在成为云计算的底层逻辑。
作为云计算模式的早期应用者,也是当下全球最大的云计算服务供应商,亚马逊云科技深刻体会到了云计算正在从云原生转向AI原生。
亚马逊云科技,正在面向AI原生提供构建AI的全部技术栈,包括底层专为AI打造的芯片和服务器,轻松接入领先模型并拥有各种模型定制工具的Amazon Bedrock,以及顶层开箱即用的Amazon Q。
代闻指出,“亚马逊云科技是要让各种不同技术栈的企业,都可以在亚马逊云科技上轻松构建AI原生的应用。”