OpenAI和谷歌AI多模态重磅更新，生成式AI之战升级第二轮

时间：2024-05-19 00:27:48来源：新媒体

ChatGPT以及硅谷AI大战终于升级，长出了“眼睛”和“嘴”。5月中旬，OpenAI和谷歌前后发布重磅AI多模态更新，从基于文字交互的ChatGPT完整升级，实现了“声音，文字和视觉”三者完整结合的人工智能新交互功能，而这，也标志着硅谷科技巨头的生成式AI之战正式进入到第二轮。新一轮竞争，只会更加激烈、更加完整。

大家好，欢迎来到硅谷101，这次我们聊聊这次多模态AI之战对科技巨头们的商业版图意味着什么变化，以及生成式AI智能技术的下一步会发生什么。那我们首先来快速复盘一下OpenAI和谷歌发布的多模态重磅更新。

01、OpenAI GPT-4o：低延迟语音交互，《Her》成为现实

OpenAI这次的发布时长很短，全程就26分钟，发了一款产品GPT-4o。

GPT-4o的“o”是拉丁词根“Omni”，意思是“所有的”、“全部的”或“全能”，意味着文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的能力，这样的“完整”多模态能力。

说实话，2024年AI之战会升级到多模态产品，这个预期在2023年已经是行业共识，我们在之前多期视频都提到过，仅仅是文字的prompt很难表达人类的意图，非常低效也非常受限，所以有语音和视觉的加持的多模态AI交互是人类通往AGI道路上的必经之路。但当多模态AI交互真的到来的时候，我觉得还是会遭震撼到。

OpenAI说，GPT-4o可以在232毫秒内响应音频输入，平均为320毫秒，这已经达到人与人之间的响应时间。也就是说，AI语音对话的交互已经能做到非常低延迟、很丝滑的像真人一样对话了。

GPT-4o发布之前，ChatGPT的语音模式功能有着好几秒的延迟，这让整个交互体验非常差，这是因为之前的GPT系列的语音功能是好几个模型的拼合，先把声音转录成文本，再用GPT大模型接受后，输出文本，然后再用text to speech模型生成音频，但这其中会损失非常多的信息，比如说语调，语气中的情绪情感，多个说话人的识别，背景的声音等等，所以语音功能会很慢很迟缓也很基础。

而这次，GPT-4o是OpenAI专门训练的跨文本、语音和视觉的端到端新模型，所有输入和输出都由同一个神经网络处理，这使得GPT-4o能够接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出，是兼具了“听觉”、“视觉”的多模态模型，同时还支持中途打断和对话插入，且具备上下文记忆能力。

这样的多模态模型是OpenAI首次发布，表示还有很多探索的空间，但目前展现出的功能已经让人惊喜。比如说，在现场demo中，GPT-4o可以理解人们的呼吸急促声音并用轻松的方式安慰人类。

它可以识别人脸表情，以及辨认情绪。

它可以随意变换语气和风格来讲故事。

同时，GPT-4o还可以通过硬件设备通过视觉来分析人们正在从事的工作、看的书，可以引导人们解题，可以切换语言实时翻译，也能通过视觉识别给它的信息并且给出非常拟人化的反馈。

说实话，在直播发布会中直接现场演示这件事情是很需要勇气的，因为一旦出错会引发非常大的公关灾难，但OpenAI有这个勇气去直接现场演示直播，给人的感觉非常自信。除了现场的演示之外，OpenAI还在官网上放出了更多更复杂场景的交互，展现出AI多模态的更多的潜力。

比如说，在官网上OpenAI做了17个案例展示，包括了照片转漫画、3D物体合成、海报创作、角色设计等样本。

此外，OpenAI总裁Greg Brockman的演示视频中，GPT-4o可以识别出他所穿的衣服、身处的环境、可以识别出Brockman的情绪和语气和房间里正出现的新动作，但最让外界关注的一个动作是，让两台运行GPT-4o的设备进行语音或视频交互。