OpenAI和谷歌AI多模态重磅更新，生成式AI之战升级第二轮(2)

时间：2024-05-19 00:27:48来源：新媒体

也就是说，OpenAI的GPT-4o多模态给了AI交互的声音和视觉，不仅升级了人和AI之间的交互，也升级了AI和AI之间的交互，这样的交互更自然，更拟人，有着更大空间的应用场景。而且整个AI的声音和语言非常的灵动，机器人感比较弱，会开玩笑会安慰人会害羞，难怪很多人在OpenAI发布会之后直呼，那部讲述人类和AI语音助手Samantha电影《Her》的时代真的到来了。

戴雨森

真格基金管理合伙人

我自己是非常激动的啊。因为我一直觉得我们对于 AI 落地的应用预期，其实不一定是准确的，大家可能在AI一开始的时候，觉得生产力的场景也很直接，但是现在可能发现，很多（AI）Agent（人工智能体）的落地反而比较难，但是感性的角度反而会更加容易一点。

对于绝大部分人来讲，生活其实是单调的，或者是一成不变的，是乏味的。那这个时候其实不管像《Her》里面说所谓的这种，男女情感的表达，还是说一种陪伴、一种倾听，其实都是很稀缺的一种资源或内容。当 AI 能够做到以一个低延迟、低成本，很好的形式去表达这种情绪价值的时候，这可能会对我们的社交社会带来很大的影响，也会带来很大的这个机会。

随着AI能力的提升，图灵测试这个概念会越来越模糊化，电影Her中描述的场景实现几乎是早晚的事。但AI多模态带来的不仅仅是情感上的陪伴和交互，更多的是整个工作场景和生态上的颠覆。

就在OpenAI发布会的一天之后，谷歌发布的一系列多模态更新，进一步的说明了AI多模态能带来的颠覆性潜力。

02、谷歌的战书：Project Astra及"120次AI"的全生态升级

对比起OpenAI的发布会，谷歌的发布会就更像一个巨头了：长达两小时，在各个生态方向用AI发力。连CEO Sundar Pichai自己也说，整场Keynote的演讲稿里总共提了120次“AI”，表明谷歌目前所有的工作都围绕多模态AI模型Gemini来展开。

首先，直接与OpenAI前一天发布的GPT-4o对标的是Project Astra。

2.1 语音助手Project Astra

虽然谷歌不是现场演示，不像OpenAI那么敢，毕竟巨头还是需要保守一些，但从谷歌的demo视频来看，如果谷歌的demo是实时生成的，谷歌的Gemini多模态模型比起OpenAI在功能上也不算弱。

谷歌DeepMind负责人Demis Hassabis在台上宣布了Project Astra，Project Astra基于Gemini多模态大模型，是一个实时、多模态的人工智能助手，可以通过硬件设备“看到”世界，知道东西是什么以及你把它们放在哪里，并且可以回答问题或帮助你做几乎任何事情。在谷歌的demo视频中，谷歌伦敦办事处的一名工作人员用Astra识别自己的地理位置，找到丢失的眼镜，检查代码等等。

如果谷歌demo是实时拍摄的，反正Demis Hassabis是打包票说这个视频没有任何篡改，那么毫无疑问这会解锁众多的交互场景。Hassabis说，“展望未来，人工智能的故事将不再是关于模型本身，而是关于它们能为你做什么”。

而与OpenAI的GPT4o宣战的Project Astra只是其中的一个产品而已，谷歌其实发布了非常多的更新，包括谷歌展示了最新版Gemini加持的搜索功能。

2.2 AI搜索

谷歌首先在美国上线名为AI Overviews的AI技术生成摘要功能。简单来说，在你搜索信息的时候，谷歌的AI就直接帮你查找、整理和展示了。究竟来说，通过多步推理，Gemini可以代替用户研究，实现更好更高效的搜索总结和结果，比如说规划一日三餐，购物餐厅选择，行程规划，都可以在AI搜索中完成，更重要的是，这样的AI搜索还会直接帮你做规划，比如说“帮我创建一个3天的饮食计划”，谷歌AI搜索就直接一个计划书摆在你面前了。