< 上一版下一版 > PDF版

谷歌为AI开发者带来灵感

作者：时间：2024/8/19 14:31:40 字体【小中大】

又是一届谷歌开发者大会(2024 Google I/O Connect)，从今年6月至8月历时两个月，这场“环球之旅”先后走过德国柏林、印度班加罗尔，最后压轴之站来到中国北京。

作为每年Google I/O大会之后的衍生篇，“Connect系列活动”如同“Connect(连接)”一词的内涵，更主张local+global(本地化+全球化)。彼时科技行者同时参与了5月份在美国山景城的Google I/O，感受颇深的是，谷歌一直在强调用Gemini将AI践行到底；只不过这次在中国的内容，谷歌传递了很多特色故事，这些故事有谷歌的AI如何点亮中国传统文化，如何创造种类繁多的AI应用，以及更重要的，如何赋能中国开发者的成功出海。

这次北京活动的第一天，刚好是8月7日，中国节气里的立秋，是收获的季节，但是在现场，或许“春耕”才符合他们的真实写照。

AI舞台上的“东方力量”

“中国开发者是全球舞台上不可或缺的先锋力量。”Google大中华区总裁陈俊廷的这句开场白，无疑是整场活动的最佳注解，“过去一年里，来自中国的25个开发团队，共有31款游戏和应用，在全球不同地区斩获了50个Google Play年度最佳奖项。”

与这个成绩相呼应的，是陈俊廷接下来列举的一个个案例，讲述了中国公司如何利用AI、重塑商业模式、驱动业务升级、为全球用户带去惊喜。

· 在数字营销领域。网易游戏在海外接触Google Cloud Vertex AI平台，提升了广告文案创作效率，工作时间从原来的1周缩减到几个小时，每月累计可以生成700多条定制化文案，定制化的营销服务“信手拈来”。

· 同样是数字营销领域。“当红炸子鸡”家居在线平台Homary，通过Google AI赋能海外广告投放，实现了投资回报率提升49%、转化价值提升50%，可谓是卖爆全球。

· 在消费电子领域。小米在海外提前布局AI，利用Google Cloud和Gemini，让海外用户感受“中国智造”的魅力。

当然，AI助推进步不仅限于尖端生产力，在传承中国文化与造福社会方面，同样拥有无限潜力。譬如：

· AI赋能传统与现代的融合创新。广州博物馆与谷歌艺术与文化(Google Arts & Culture)合作，通过沉浸式线上展览，向全球用户呈现广州千年港口的璀璨和饮食文化的魅力，比如广彩、德化瓷、镇海楼等，涵盖了127件珍贵馆藏图片和10个丰富的文化故事。

· AI赋能可持续发展。在四川高原牧场，西南民族大学借助谷歌的AI开源技术，改善了当地牧民生活。一位参与该项目的西南民族大学同学分享道：“红原县平均海拔3600米，这里有一望无际的草场，牦牛有没有长肉是牧民尤其关心的问题，我们收集了大量的牦牛图像数据，利用TensorFlow训练牦牛的关键点检测，借助轻量化的TensorFlow Lite模型部署在APP上，现在牧民只需要拍摄牦牛的照片，就能估算出牦牛的体重，适时调整养殖策略。为了帮助农民更好地进行放牧规划，我们利用谷歌的AI开源技术ARCore，在APP上设计了放牧规划模块、草畜平衡模块，帮助牧民进入自家牧场了解情况，推动牧场的可持续发展。”

· AI赋能社会公益。在中国26所偏远地区的小学课堂上，谷歌公益携手欣欣教育基金会，通过“编译梦想”项目，对900多名学生进行AI入门和基础教育，为孩子们打开AI世界的大门；在“善创未来”黑客马拉松中，40多名开发者以公益实践为主题，带来了兼具人文关怀、实用性和前瞻性的技术解决方案，比如此次会议介绍的两个AI技术开源项目：“手语村”与“智引线”，为听障和视障人士提供更多学习和生活的便利。

在谷歌看来，AI正在改变「开发」的格局，从激发应用创意，到重塑构建方法，而谷歌始终致力于通过AI赋能的产品开发工具和平台，帮助出海开发者大胆创新、高效创造、触达全球。

那么对于这群可爱的开发者们而言，有哪些AI赋能的产品开发工具和平台？答案，就要从Gemini开始说起。

用AI重塑开发，狂卷Gemini

如果说，曾经你还搞不清楚谷歌千千万万产品的名字，那么以后不必担心，因为当谈及谷歌的AI时，它们只会指向同一个名字——Gemini。

Gemini，是谷歌现在最核心的基础模型，同时被广泛认为是这家公司在AI时代的野心，此前谷歌CEO桑达尔·皮查伊(Sundar Pichai)在2024 Google I/O更是直言“谷歌正式迈向Gemini时代”。

从谷歌的表述来看，Gemini的独特之处在于“它不是单独在文本语料库上训练的，而是一开始就被设计为「多模态模型」”，所以它可同时处理多种类型的数据，文本、图像、音视频、代码等。迄今，Gemini一共发布了两代，Gemini 1.0（发布于2023年12月）和Gemini 1.5（发布于2024年2月），而为了匹配不同场景下的开发需求，它目前一共有Ultra、Pro、Flash、Nano四个版本。其中：

· Gemini Ultra是谷歌规模最大、功能最强的模型，适用于“高度复杂的任务”。据说它是第一个在 57 门学科的大规模多任务语言理解(MMLU)测试中优于人类专家的语言模型，得分90%，这些学科包括数学、物理、历史、法律、医学等等。

· Gemini Pro适用于“各种广泛的任务”。目前，Gemini 1.5 Pro版本做了显著改进，不仅支持200万token的上下文窗口，还提升了在编写代码、逻辑推理和规划、多轮对话、理解音频和图像方面的能力，所以它适合“需要最高质量响应的复杂任务”，它回答的质量也高。

· Gemini Nano是最高效的模型，适合处理“端侧任务”（比如安卓手机），它可直接在移动设备上运行，提供低延迟响应和数据隐私保护。

· Gemini Flash是谷歌迄今速度最快、最经济的模型，专门针对大规模、高频率的运算任务进行了优化，适合处理“高容量任务”。有意思的是，1.5 Flash是通过1.5 Pro 的训练过程进行“提取”得到的，也就是说，将大模型中的核心知识和技能转移到这个较小但更高效的模型上。不过，尽管与1.5 Pro相比，1.5 Flash更轻量，但后者在处理大量信息时仍展现出强大的多模态推理能力，擅长摘要制作、聊天应用、提供图说和视频字幕，以及从长篇文件和表格中提取数据等任务。

总之，谷歌将逐渐把Gemini纳入旗下所有产品里，包括搜索、地图、照片、Workspace、安卓等。Gemini也会被集成到谷歌的众多开发工具中，包括Android Studio、Chrome DevTools、Project IDX、Colab、VS Code、IntelliJ和Firebase，可以帮助开发者编写、调试和测试代码，还可以生成文档、理解整个代码库等，化身“开发助手”。

在谷歌的设想下，有了Gemini全家桶，开发者可以专注于构建AI功能，而谷歌专注于打磨这一王牌选手。但是，这还不够。

Google Developer X和开发者关系副总裁兼总经理Jeanine Banks现场指出，为了满足开发者对灵活性和掌控力的需求，根据具体应用场景对AI进行微调、增强和接地气，谷歌自己卷自己，推出与Gemini“一脉相承”的开源大模型——Gemma，采用与Gemini相同的研究和技术。

Gemma发布于今年2月，分为2B（20亿参数）和7B（70亿参数）两种尺寸版本，2B版本甚至可直接在笔记本电脑上运行；今年6月，谷歌又推出了更强大、更高效、更安全的Gemma 2，拥有90亿（‌9B）‌和270亿（‌27B）‌两种参数大小。

当然，技术参数是一方面，怎么善用工具更重要。

谷歌这次也像往年一样，分享了全套应用开发工具和服务的更新，覆盖AI、Web、移动端、云这4个开发平台，为AI时代的开发者提供沃土。

比如谷歌的开源UI工具包——Flutter，它可以在移动端、Web端、桌面端触及用户，其全部使用单一共享代码库。而在会上，谷歌宣布更新了Flutter 3.24和Dart 3.5版本，其中包括新的Flutter GPU API 的早期预览、Web上元素嵌入的增强，以及针对 iOS 生态系统构建的几项更新，包括对Swift Package Manager的早期支持，以及对Cupertino widget 的功能更新。

传统上，跨平台框架在视觉效果上需要妥协，因为它们依赖于底层平台提供的高级抽象。而Flutter采用了不同的方法，拥有自己的渲染层，可以在每个设备上，提供硬件加速的图形和流畅的性能。谷歌在Impeller和着色器方面取得了实质性进展，为图形处理带来了激动人心的新可能 ——比如3D。

其中最大的亮点是Flutter GPU API的早期预览，这是一个强大的底层图形API，它直接集成到Flutter SDK中，开发者可以通过该API，自定义光栅管线并直接向GPU提交绘制调用，使得创建专门的渲染器成为可能，如2D Canvas替代品、3D场景图，甚至粒子系统，以创建视觉上令人惊叹、高性能和身临其境的体验，而无需通常需要的引擎级别的开销。

现场联动环节，小米展示了利用Flutter，为小米SU7开发车载配套应用，包括远程车辆控制、接收车辆状态的实时更新、在后排悬挂Pad安装另外一块拓展屏App等。“上手Flutter非常容易，并且开发进展迅速，我们预估比使用原生框架的效率高60%。”小米汽车智能座舱手机APP客户端高级研发工程师陈作斌在宣传片里分享道。

除了上述更新，谷歌还揭秘了开源项目Project Oscar。它是一个 AI代理（AI Agent）的参考实现，可协助维护开源项目。它以Go编程语言项目为入手点，将来能为各种不同的开源项目带来助力，帮助开发者全心投入编程工作。

这可以是AI开发的试验田

诚然，几乎所有开发者活动，其实都有一个共性：尽可能激励开发者的创作灵感，谷歌的这次活动也不例外。所以，如果我们把视角从主题演讲的发布，挪到范围更大的其他环节，就会发现有更多的开发者聚集在现场的工作坊、展区体验、各种交流的场合里。

展区体验环节同样是围绕AI、Web、移动端、云这4个主题分布，然而当我实际体验时才得知，这些案例中的大部分，并非是已经商业化的成熟案例，而是作为一个单纯的demo，为启发开发者的创作灵感而准备的。

比如多次亮相于谷歌开发者大会的“大黄”——谷歌的一个实验性项目，目的是为了给开发者提供灵感，展示AI如何量身定制一款交互助手。大黄的技术基因很多，它囊括了PaLM2、MakerSuite、MediaPipe、Vertex AI等，有了这些技术的加持，大黄可以与人实时对话。不过与去年相比，今年的大黄不仅会“说话”，还能“看见”周围环境。开发者可以通过“大黄”，了解到如何用Gemma开发交互助手。

再比如展区现场的“Golf with Gemini(高尔夫陪练)”体验，Gemini可以作为教练，从准度、是否违规、优雅度、杆前动作、姿势与力量、最终得分、总结等维度，对你每一次的挥杆，给出专业指导。现场采访中，工作人员介绍了它的工作流：

· 视频捕捉和处理：摄像机抓取玩家的高尔夫球比赛场景，所拍摄的视频上传到Google Cloud Storage；同时，利用计算机视觉的目标检测技术，在视频中逐帧追踪高尔夫球的运动，并提取球的位置、与球洞的距离、击球次数等数据；

· 数据存储与分析：提取的数据被实时传输到BigQuery，大量的数据被高效存储和分析，分析结果随后可被可视化，以更加了解高尔夫进程。

· 基于生成式AI的实时趣味解说：Gemini 1.5 Pro将基于拍摄的视频和数据，生成实时趣味解说。

诸如此类的体验还有很多，谷歌一直在通过寓教于乐的方式，来挖掘开发潜能。甚至，为了培养中国开发者，谷歌从教育抓起——「谷歌数字人才培养计划」自2022年起与教育部合作，目前已为全国150多所高校的560多名教师开展线下培训，累计覆盖4万多名在校学生。

为了更好服务于中国开发者走向海外，Google开发者中文网站还上线了Google AI页面，专门提供Google AI技术更新、实时的新闻动态、丰富的学习资源；同时，谷歌通过“出海创业加速器(GFSA，Google for Startups Accelerator)”项目，助力中国创业者和开发者决胜全球，并且每年举行为期3个月的训练营，为入营企业提供三个月的免费创业支持。

（文章来源：科技行者techwalker.com）