五月全球“AI大爆炸”：卷技术、拼落地、比价格

时间：2024-05-19 00:26:27来源：互联网

这个五月，全球科技圈异常热闹。

先是OpenAI和谷歌掰手腕，后有微软、苹果的开发者大会即将召开；反观国内，大厂和创业公司也都在拼场景、卷技术。

5月15日，谷歌举办了2024年I/O开发者大会，AI是全场的主题，谷歌发布了Gemini 1.5 Pro的新版本，谷歌CEO皮查伊宣布谷歌已经完整进入Gemini时代。

原本打算掀起全球的科技狂欢的谷歌没想到遭OpenAI抢了先。

就在谷歌发布会前一天，OpenAI举行了春季发布会，发布最新多模态大模型GPT-4o，相较于GPT-4 Trubo速度更快、价格也更便宜。更重要的是，该大模型响应速度更接近人类水平，无限接近现实。

OpenAI这场空降的发布会，遭市场看作是对谷歌的“截胡”和“狙击”。双方“掰手腕”的核心竞争点在于AI，这个令全球科技市场兴奋的技术，一场关于AI技术的比拼再度开启。

大洋彼岸的中国，也聚集了一众参与大模型军备竞赛的玩家，正努力缩小与国外科技公司的差距，并在场景、价格、落地上有更多的探索。

5月15日，字节近期推出豆包大模型，日均处理1200亿Tokens文本，生成3000万张图片；5月14日，腾讯混元大模型升级开源，采用与Sora同款DiT架构；5月9日，阿里云正式发布通义千问2.5，模型性能完整赶超GPT-4 Turbo……

经过一年多的发展，大模型技术不断提高，玩家们要面对的不仅是技术上的差距，更重要的是如何通过场景落地、商业化覆盖大模型高昂的训练成本以及研发成本。

新一轮的技术大爆炸开始了，新一轮的竞赛也开始了。

1、OpenAI 与谷歌的AI竞赛，拉开新一轮技术大爆炸的序幕

连着两天，大洋彼岸的OpenAI和谷歌掀起了新一轮的AI军备竞赛。

5月14日凌晨，继上周预告了ChatGPT和GPT-4“就像魔法一样”的重大更新后，OpenAI揭开了最新大模型的神秘面纱。

会上，OpenAI发布了新旗舰模型“GPT-4o”，这里的“o”代表“omni”，意为“全能”。顾名思义，最新的GPT-4o是款全能型大模型，也是OpenAI CEO阿尔特曼口中“很有意思的东西。”

为了彰显“全能”，OpenAI首席技术官米拉·穆拉蒂用大量篇幅介绍GPT-4o的先进程度。比如，GPT-4o可以综合利用语音、文本和视觉信息进行推理；GPT-4o在GPT-4的基础上，新增语音处理能力，掌握多国语言；GPT-4o还可接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

用OpenAI官网的话来解释，GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上也达到了新高水位线。

整场发布会最大的亮点，也是最特别之处莫过于GPT-4o更像人。

图源OpenAI官网

一方面，GPT-4o几乎可以做到即时回应，没有停顿。OpenAI表示，在GPT-4o推出之前，用户使用语音模式与ChatGPT进行对话时，延迟时间分别为GPT-3.5的2.8秒和GPT-4的5.4秒，GPT-4o将这一延迟遭大幅缩短为320毫秒。

另一方面，GPT-4o能在与人的对话中，通过图表、图像等形式判断用户的情绪、状态，并给出“情绪化”的回应——夸张的、戏剧的、低沉的……

当电影《Her》中的画面照进现实，GPT-4o的“拟人化”给了市场足够多惊喜。GPT-4o驱动下的ChatGPT，已不再是一个单纯追求性能的AI工具，而是可以主动给予用户情绪价值的AI助理。

这一次，GPT-4o的出现，是OpenAI向本就不平静的池水中投掷了一枚极具杀伤力的炸弹，并直指同在硅谷的科技巨头谷歌，谷歌必须直面劲敌。

就在OpenAI开发布会的第二天，谷歌年度I/O开发者大会主题演讲上，谷歌CEO皮查伊发布数十款Google和 AI 结合产品，堪称“全家桶”级别，全力对战OpenAI。

其中包括支持200万Tokens长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash、谷歌版Sora技术Veo，最强开源模型Gemma 2，支持生成式搜索的AI Overviews、第六代TPU等。

围绕AI，皮查伊及同事进行了长达110分钟的演讲，据谷歌统计，皮查伊提及AI的次数高达121次。

不过，有GPT-4o“拟人”在前做标杆，谷歌发布会最受关注的莫过于AI助手Project Astra。

相比于谷歌上一代AI助手Google Assistant，Project Astra是一个实时、多模式的AI助手，通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互，没有延迟或延迟，可以回答问题或帮助你做几乎任何事情。