融易新媒体
快捷导航 融易新媒体
主页 > 科技 > 自媒体 >

五月全球“AI大爆炸”:卷技术、拼落地、比价格

时间:2024-05-19 00:26:27来源:互联网

这个五月,全球科技圈异常热闹。

先是OpenAI和谷歌掰手腕,后有微软、苹果的开发者大会即将召开;反观国内,大厂和创业公司也都在拼场景、卷技术。

5月15日,谷歌举办了2024年I/O开发者大会,AI是全场的主题,谷歌发布了Gemini 1.5 Pro的新版本,谷歌CEO皮查伊宣布谷歌已经完整进入Gemini时代。

原本打算掀起全球的科技狂欢的谷歌没想到遭OpenAI抢了先。

就在谷歌发布会前一天,OpenAI举行了春季发布会,发布最新多模态大模型GPT-4o,相较于GPT-4 Trubo速度更快、价格也更便宜。更重要的是,该大模型响应速度更接近人类水平,无限接近现实。

OpenAI这场空降的发布会,遭市场看作是对谷歌的“截胡”和“狙击”。双方“掰手腕”的核心竞争点在于AI,这个令全球科技市场兴奋的技术,一场关于AI技术的比拼再度开启。

大洋彼岸的中国,也聚集了一众参与大模型军备竞赛的玩家,正努力缩小与国外科技公司的差距,并在场景、价格、落地上有更多的探索。

5月15日,字节近期推出豆包大模型,日均处理1200亿Tokens文本,生成3000万张图片;5月14日,腾讯混元大模型升级开源,采用与Sora同款DiT架构;5月9日,阿里云正式发布通义千问2.5,模型性能完整赶超GPT-4 Turbo……

经过一年多的发展,大模型技术不断提高,玩家们要面对的不仅是技术上的差距,更重要的是如何通过场景落地、商业化覆盖大模型高昂的训练成本以及研发成本。

新一轮的技术大爆炸开始了,新一轮的竞赛也开始了。

1、OpenAI 与谷歌的AI竞赛,拉开新一轮技术大爆炸的序幕

连着两天,大洋彼岸的OpenAI和谷歌掀起了新一轮的AI军备竞赛。

5月14日凌晨,继上周预告了ChatGPT和GPT-4“就像魔法一样”的重大更新后,OpenAI揭开了最新大模型的神秘面纱。

会上,OpenAI发布了新旗舰模型“GPT-4o”,这里的“o”代表“omni”,意为“全能”。顾名思义,最新的GPT-4o是款全能型大模型,也是OpenAI CEO阿尔特曼口中“很有意思的东西。”

为了彰显“全能”,OpenAI首席技术官米拉·穆拉蒂用大量篇幅介绍GPT-4o的先进程度。比如,GPT-4o可以综合利用语音、文本和视觉信息进行推理;GPT-4o在GPT-4的基础上,新增语音处理能力,掌握多国语言;GPT-4o还可接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

用OpenAI官网的话来解释,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉功能上也达到了新高水位线。

整场发布会最大的亮点,也是最特别之处莫过于GPT-4o更像人。

图源OpenAI官网

一方面,GPT-4o几乎可以做到即时回应,没有停顿。OpenAI表示,在GPT-4o推出之前,用户使用语音模式与ChatGPT进行对话时,延迟时间分别为GPT-3.5的2.8秒和GPT-4的5.4秒,GPT-4o将这一延迟遭大幅缩短为320毫秒。

另一方面,GPT-4o能在与人的对话中,通过图表、图像等形式判断用户的情绪、状态,并给出“情绪化”的回应——夸张的、戏剧的、低沉的……

当电影《Her》中的画面照进现实,GPT-4o的“拟人化”给了市场足够多惊喜。GPT-4o驱动下的ChatGPT,已不再是一个单纯追求性能的AI工具,而是可以主动给予用户情绪价值的AI助理。

这一次,GPT-4o的出现,是OpenAI向本就不平静的池水中投掷了一枚极具杀伤力的炸弹,并直指同在硅谷的科技巨头谷歌,谷歌必须直面劲敌。

就在OpenAI开发布会的第二天,谷歌年度I/O开发者大会主题演讲上,谷歌CEO皮查伊发布数十款Google和 AI 结合产品,堪称“全家桶”级别,全力对战OpenAI。

其中包括支持200万Tokens长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash、谷歌版Sora技术Veo,最强开源模型Gemma 2,支持生成式搜索的AI Overviews、第六代TPU等。

围绕AI,皮查伊及同事进行了长达110分钟的演讲,据谷歌统计,皮查伊提及AI的次数高达121次。

不过,有GPT-4o“拟人”在前做标杆,谷歌发布会最受关注的莫过于AI助手Project Astra。

相比于谷歌上一代AI助手Google Assistant,Project Astra是一个实时、多模式的AI助手,通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互,没有延迟或延迟,可以回答问题或帮助你做几乎任何事情。

演示视频中,Project Astra可以通过手机摄像头识别现实环境,实现了能看、能说、能听。这与前一天GPT-4o的功能不谋而合。

图源谷歌官网


近期热点

OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮 05-19

装修40万起,理想前总裁改行做家装 05-19

五月全球“AI大爆炸”:卷技术、拼落地、比价格 05-19

云南白药5高管遭一锅端,祸起小小“创可贴”? 05-19

视频号“成年”,带领腾讯挣钱 05-19

热门文章
热点 热点追踪 网站首页 热点 观点