时间:2024-05-19 00:27:48来源:新媒体
也就是说,OpenAI的GPT-4o多模态给了AI交互的声音和视觉,不仅升级了人和AI之间的交互,也升级了AI和AI之间的交互,这样的交互更自然,更拟人,有着更大空间的应用场景。而且整个AI的声音和语言非常的灵动,机器人感比较弱,会开玩笑会安慰人会害羞,难怪很多人在OpenAI发布会之后直呼,那部讲述人类和AI语音助手Samantha电影《Her》的时代真的到来了。
戴雨森
真格基金管理合伙人
我自己是非常激动的啊。因为我一直觉得我们对于 AI 落地的应用预期,其实不一定是准确的,大家可能在AI一开始的时候,觉得生产力的场景也很直接,但是现在可能发现,很多(AI)Agent(人工智能体)的落地反而比较难,但是感性的角度反而会更加容易一点。
对于绝大部分人来讲,生活其实是单调的,或者是一成不变的,是乏味的。那这个时候其实不管像 《Her》 里面说所谓的这种,男女情感的表达,还是说一种陪伴、一种倾听,其实都是很稀缺的一种资源或内容。当 AI 能够做到以一个低延迟、低成本,很好的形式去表达这种情绪价值的时候,这可能会对我们的社交社会带来很大的影响,也会带来很大的这个机会。
随着AI能力的提升,图灵测试这个概念会越来越模糊化,电影Her中描述的场景实现几乎是早晚的事。但AI多模态带来的不仅仅是情感上的陪伴和交互,更多的是整个工作场景和生态上的颠覆。
就在OpenAI发布会的一天之后,谷歌发布的一系列多模态更新,进一步的说明了AI多模态能带来的颠覆性潜力。
02、谷歌的战书:Project Astra及"120次AI"的全生态升级对比起OpenAI的发布会,谷歌的发布会就更像一个巨头了:长达两小时,在各个生态方向用AI发力。连CEO Sundar Pichai自己也说,整场Keynote的演讲稿里总共提了120次“AI”,表明谷歌目前所有的工作都围绕多模态AI模型Gemini来展开。
首先,直接与OpenAI前一天发布的GPT-4o对标的是Project Astra。
2.1 语音助手Project Astra
虽然谷歌不是现场演示,不像OpenAI那么敢,毕竟巨头还是需要保守一些,但从谷歌的demo视频来看,如果谷歌的demo是实时生成的,谷歌的Gemini多模态模型比起OpenAI在功能上也不算弱。
谷歌DeepMind负责人Demis Hassabis在台上宣布了Project Astra,Project Astra基于Gemini多模态大模型,是一个实时、多模态的人工智能助手,可以通过硬件设备“看到”世界,知道东西是什么以及你把它们放在哪里,并且可以回答问题或帮助你做几乎任何事情。在谷歌的demo视频中,谷歌伦敦办事处的一名工作人员用Astra识别自己的地理位置,找到丢失的眼镜,检查代码等等。
如果谷歌demo是实时拍摄的,反正Demis Hassabis是打包票说这个视频没有任何篡改,那么毫无疑问这会解锁众多的交互场景。Hassabis说,“展望未来,人工智能的故事将不再是关于模型本身,而是关于它们能为你做什么”。
而与OpenAI的GPT4o宣战的Project Astra只是其中的一个产品而已,谷歌其实发布了非常多的更新,包括谷歌展示了最新版Gemini加持的搜索功能。
2.2 AI搜索
谷歌首先在美国上线名为AI Overviews的AI技术生成摘要功能。简单来说,在你搜索信息的时候,谷歌的AI就直接帮你查找、整理和展示了。究竟来说,通过多步推理,Gemini可以代替用户研究,实现更好更高效的搜索总结和结果,比如说规划一日三餐,购物餐厅选择,行程规划,都可以在AI搜索中完成,更重要的是,这样的AI搜索还会直接帮你做规划,比如说“帮我创建一个3天的饮食计划”,谷歌AI搜索就直接一个计划书摆在你面前了。