OpenAI和谷歌AI多模态重磅更新，生成式AI之战升级第二轮(3)

时间：2024-05-19 00:27:48来源：新媒体

另外让我觉得很期待的两个功能，一个是多模态搜索。你会不会遇到过这种情况，搜索时发现难以用语言描述问题，或者遇到不熟悉不认识的物体，不知道如何去搜索相关的名词。

现在你就可以直接拍张照片或者录段视频用语音或打字问AI搜索，这个是啥，怎么修理，之后谷歌就会帮你整理出相关的各种信息。

对于我这种3C杀手、经常容易弄坏各种电器的人来说，我简直太期待这个多模态搜索功能了。而多模态模型Gemini的强大搜索和推理能力还能做更多的事情，也正好是我的痛点。

比如说，CEO Pichai在现场演示，Gemini可以在谷歌相册Google Photos里进行更多的相关搜索，比如通过名为Ask Photos with Gemini的新功能让Gemini找到用户想要的车牌照号。

实话告诉大家，我就是那个记不住我家车牌号的人，所以，谷歌Gemini可以在用户的相册中搜索，找到相应信息和对应的照片，比如说获取照片中拍到的车牌照号码，这个功能对我来说，真的是非常期待。以及任何可以帮我寻找以往照片、文件中信息的功能，我觉得都会解决很多痛点。

还有一个对我来说很大帮助的是，谷歌AI将会结合到谷歌的所有workspace中，俗称“谷歌全家桶” ，也就是说，在 Gemini 的加持下，Google Workspace，包括 Gmail、Google Docs、Google Drive、Google Calendar、Google Meet 等都可以打通，可以在这里进行跨文档搜索。比如说，你在邮箱里收到了一张发票，那么可以直接通过Gemini，把这张发票，整理到网盘Google Drive和表格Google Sheet中。还可以在邮件中搜索、读取信息和亮点、归纳总结，这些功能都会在今年稍后推出。

另外谷歌还发布了一系列其他的模型更新，包括画图的 Imagen 3，音乐的 Music AI Sandbox，还有生成视频的 Veo，还有有史以来最长、上下文窗口200万token的Gemini 1.5 Pro，还有Gemini app以及谷歌的自研芯片第6代 TPU等等，因为细节和产品太多了这个视频我们就不一一复述了，如果感兴趣的小伙伴可以去看看谷歌的两小时发布会全程。

看到这里，你可能会问，在OpenAI之后发布这一系列重磅更新的谷歌，两个对手这一轮的发布，谁是赢家呢？

03、OpenAI vs. Google：多模态之战与AI的应用落地

两场发布会之后，我看到不少人在对比OpenAI和谷歌的产品发布。我们从公司策略层来解读一下。

首先，OpenAI比谷歌IO早一天发布了春季更新，而且非常临时，很难猜测不是故意抢在谷歌前面的，发布时长也只持续26分钟，非常聚焦在GPT-4o这一个产品上。虽然外界对GPT-4o的评价没有说像当时发布ChatGPT时那么惊喜那么轰动，但不得不说，业内的很多人还是觉得是一个很重要的里程碑，虽然多模态的这些功能是去年业内共识，OpenAI会在2024年做出来并发布，并没有那么多惊喜或创新，但是“实现”了大家“期待中早晚会实现的AI更新”，也是非常有意义的，并且也是正确的发展道路。

Howie Xu

AI及云服务行业高管、斯坦福大学客座教授

OpenAI这个GPT 4模型出来，也能够做些translation（翻译），翻译什么的并不是一个新东西，如果没有实时效应，其实是很难落地，但星期一他那个宣布的东西，让我感觉到我有可能真的会去用，比如下次我跟你一起去采访谁或者跟谁讲话，语言不通（的时候），我们真的可能就打开我们的手机来给来用translation。就以前的，那个延迟这么慢，效果很不好，你都不好意思拿出来就用对吧？

那为什么能够做到延迟性这么低，那遭广泛认为的就是因为它是做到了Native（原生的）Multimodal（多模态模型），我看到那个demo，我的第一反应是说OK，以前他说的这些东西我都是玩玩是可以的，但是我是不会拎出来用的，但是他星期一给我的东西，我就觉得有可能我会拿来，就在实际的生活工作的场景里面可能用得到。

如果光从语音助手这个产品上来看，GPT-4o对打谷歌Project Astra，目前业内很多声音仍然认为OpenAI是领先的。单从多模态模型上来说，GPT-4o是OpenAI第一款完全原生的多模态模型。