融易新媒体
快捷导航 融易新媒体
主页 > 科技 > 自媒体 >

OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

时间:2024-05-19 00:27:48来源:新媒体

ChatGPT以及硅谷AI大战终于升级,长出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后发布重磅AI多模态更新,从基于文字交互的ChatGPT完整升级,实现了“声音,文字和视觉”三者完整结合的人工智能新交互功能,而这,也标志着硅谷科技巨头的生成式AI之战正式进入到第二轮。新一轮竞争,只会更加激烈、更加完整。

大家好,欢迎来到硅谷101,这次我们聊聊这次多模态AI之战对科技巨头们的商业版图意味着什么变化,以及生成式AI智能技术的下一步会发生什么。那我们首先来快速复盘一下OpenAI和谷歌发布的多模态重磅更新。

01、OpenAI GPT-4o:低延迟语音交互,《Her》成为现实

OpenAI这次的发布时长很短,全程就26分钟,发了一款产品GPT-4o。

GPT-4o的“o”是拉丁词根“Omni”,意思是“所有的”、“全部的”或“全能”,意味着文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的能力,这样的“完整”多模态能力。

说实话,2024年AI之战会升级到多模态产品,这个预期在2023年已经是行业共识,我们在之前多期视频都提到过,仅仅是文字的prompt很难表达人类的意图,非常低效也非常受限,所以有语音和视觉的加持的多模态AI交互是人类通往AGI道路上的必经之路。但当多模态AI交互真的到来的时候,我觉得还是会遭震撼到。

OpenAI说,GPT-4o可以在232毫秒内响应音频输入,平均为320毫秒,这已经达到人与人之间的响应时间。也就是说,AI语音对话的交互已经能做到非常低延迟、很丝滑的像真人一样对话了。

GPT-4o发布之前,ChatGPT的语音模式功能有着好几秒的延迟,这让整个交互体验非常差,这是因为之前的GPT系列的语音功能是好几个模型的拼合,先把声音转录成文本,再用GPT大模型接受后,输出文本,然后再用text to speech模型生成音频,但这其中会损失非常多的信息,比如说语调,语气中的情绪情感,多个说话人的识别,背景的声音等等,所以语音功能会很慢很迟缓也很基础。

而这次,GPT-4o是OpenAI专门训练的跨文本、语音和视觉的端到端新模型,所有输入和输出都由同一个神经网络处理,这使得GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,是兼具了“听觉”、“视觉”的多模态模型,同时还支持中途打断和对话插入,且具备上下文记忆能力。

这样的多模态模型是OpenAI首次发布,表示还有很多探索的空间,但目前展现出的功能已经让人惊喜。比如说,在现场demo中,GPT-4o可以理解人们的呼吸急促声音并用轻松的方式安慰人类。

它可以识别人脸表情,以及辨认情绪。

它可以随意变换语气和风格来讲故事。

同时,GPT-4o还可以通过硬件设备通过视觉来分析人们正在从事的工作、看的书,可以引导人们解题,可以切换语言实时翻译,也能通过视觉识别给它的信息并且给出非常拟人化的反馈。

说实话,在直播发布会中直接现场演示这件事情是很需要勇气的,因为一旦出错会引发非常大的公关灾难,但OpenAI有这个勇气去直接现场演示直播,给人的感觉非常自信。除了现场的演示之外,OpenAI还在官网上放出了更多更复杂场景的交互,展现出AI多模态的更多的潜力。

比如说,在官网上OpenAI做了17个案例展示,包括了照片转漫画、3D物体合成、海报创作、角色设计等样本。

此外,OpenAI总裁Greg Brockman的演示视频中,GPT-4o可以识别出他所穿的衣服、身处的环境、可以识别出Brockman的情绪和语气和房间里正出现的新动作,但最让外界关注的一个动作是,让两台运行GPT-4o的设备进行语音或视频交互。


近期热点

OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮 05-19

装修40万起,理想前总裁改行做家装 05-19

五月全球“AI大爆炸”:卷技术、拼落地、比价格 05-19

云南白药5高管遭一锅端,祸起小小“创可贴”? 05-19

视频号“成年”,带领腾讯挣钱 05-19

热门文章
热点 热点追踪 网站首页 热点 观点