时间:2024-05-19 00:27:48来源:新媒体
另外让我觉得很期待的两个功能,一个是多模态搜索。你会不会遇到过这种情况,搜索时发现难以用语言描述问题,或者遇到不熟悉不认识的物体,不知道如何去搜索相关的名词。
现在你就可以直接拍张照片或者录段视频用语音或打字问AI搜索,这个是啥,怎么修理,之后谷歌就会帮你整理出相关的各种信息。
对于我这种3C杀手、经常容易弄坏各种电器的人来说,我简直太期待这个多模态搜索功能了。而多模态模型Gemini的强大搜索和推理能力还能做更多的事情,也正好是我的痛点。
比如说,CEO Pichai在现场演示,Gemini可以在谷歌相册Google Photos里进行更多的相关搜索,比如通过名为Ask Photos with Gemini的新功能让Gemini找到用户想要的车牌照号。
实话告诉大家,我就是那个记不住我家车牌号的人,所以,谷歌Gemini可以在用户的相册中搜索,找到相应信息和对应的照片,比如说获取照片中拍到的车牌照号码,这个功能对我来说,真的是非常期待。以及任何可以帮我寻找以往照片、文 件中信息的功能,我觉得都会解决很多痛点。
还有一个对我来说很大帮助的是,谷歌AI将会结合到谷歌的所有workspace中,俗称“谷歌全家桶” ,也就是说,在 Gemini 的加持下,Google Workspace,包括 Gmail、Google Docs、Google Drive、Google Calendar、Google Meet 等都可以打通,可以在这里进行跨文档搜索。比如说,你在邮箱里收到了一张发票,那么可以直接通过Gemini,把这张发票,整理到网盘Google Drive和表格Google Sheet中。还可以在邮件中搜索、读取信息和亮点、归纳总结,这些功能都会在今年稍后推出。
另外谷歌还发布了一系列其他的模型更新,包括画图的 Imagen 3,音乐的 Music AI Sandbox,还有生成视频的 Veo,还有有史以来最长、上下文窗口200万token的Gemini 1.5 Pro,还有Gemini app以及谷歌的自研芯片第6代 TPU等等,因为细节和产品太多了这个视频我们就不一一复述了,如果感兴趣的小伙伴可以去看看谷歌的两小时发布会全程。
看到这里,你可能会问,在OpenAI之后发布这一系列重磅更新的谷歌,两个对手这一轮的发布,谁是赢家呢?
03、OpenAI vs. Google:多模态之战与AI的应用落地两场发布会之后,我看到不少人在对比OpenAI和谷歌的产品发布。我们从公司策略层来解读一下。
首先,OpenAI比谷歌IO早一天发布了春季更新,而且非常临时,很难猜测不是故意抢在谷歌前面的,发布时长也只持续26分钟,非常聚焦在GPT-4o这一个产品上。虽然外界对GPT-4o的评价没有说像当时发布ChatGPT时那么惊喜那么轰动,但不得不说,业内的很多人还是觉得是一个很重要的里程碑,虽然多模态的这些功能是去年业内共识,OpenAI会在2024年做出来并发布,并没有那么多惊喜或创新,但是“实现”了大家“期待中早晚会实现的AI更新”,也是非常有意义的,并且也是正确的发展道路。
Howie Xu
AI及云服务行业高管、斯坦福大学客座教授
OpenAI这个GPT 4模型出来,也能够做些translation(翻译),翻译什么的并不是一个新东西,如果没有实时效应,其实是很难落地,但星期一他那个宣布的东西,让我感觉到我有可能真的会去用,比如下次我跟你一起去采访谁或者跟谁讲话,语言不通(的时候),我们真的可能就打开我们的手机来给来用translation。就以前的,那个延迟这么慢,效果很不好,你都不好意思拿出来就用对吧?
那为什么能够做到延迟性这么低,那遭广泛认为的就是因为它是做到了Native(原生的)Multimodal(多模态模型),我看到那个demo,我的第一反应是说OK,以前他说的这些东西我都是玩玩是可以的,但是我是不会拎出来用的,但是他星期一给我的东西,我就觉得有可能我会拿来,就在实际的生活工作的场景里面可能用得到。
如果光从语音助手这个产品上来看,GPT-4o对打谷歌Project Astra,目前业内很多声音仍然认为OpenAI是领先的。单从多模态模型上来说,GPT-4o是OpenAI第一款完全原生的多模态模型。