时间:2024-05-19 00:27:48来源:新媒体
我们视频之前也说到,它所有的多模态输入和输出都由同一个神经网络处理,这使得GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,是所谓的“multimodal in(多模态输入), multimodal out(多模态输出)”。
但目前不少业内人士认为,谷歌的Gemini目前并没有做到这个程度,比如说英伟达高级科学家Jim Fan在LinkedIn上发表观点认为,谷歌是多模态作为输入,但并不是多模态作为输出(multimodal in, but not multimodal out)。
这意味着谷歌本次更新的视频、音乐等模型依然是独立于Gemini大模型的存在,只是输出的时候把所有模型给整合起来拥有的多模态输出能力。所以Jim Fan认为,谷歌整合所有的输入输出模态,将是不可避免的未来发展。
但他还有一句评论挺有意思的,Jim Fan说,谷歌在这次发布会中做对的一件事是:“他们终于认真努力将AI集成到搜索框中。谷歌最坚固的护城河是分销,Gemini不一定要成为最好的模型,才能成为世界上遭使用最多的模型。”
也就是说,谷歌在整个生态中只要顺畅的融入AI功能,让用户觉得能解决问题,提高生活和工作效率,因为谷歌在搜索、邮箱、谷歌云上的种种积累和优势,谷歌的分销优势依然能保证谷歌在AI时代中立于不败之地。
所以,按照这个逻辑来看,谷歌在这次发布会上在全生态上完整升级AI功能,其实是做到了。所以,就算OpenAI前一天抢跑发布亮点的GPT4o,谷歌整体来看,这一局也不算输,第二天的股价稳中上涨也应证了市场的看法。
戴雨森
真格基金管理合伙人
OpenAI发布会之后,Google 发布会之前,我跟一位Google的同学聊,然后他提到一个观点还挺有意思。他说一年以前OpenAI发GPT4的时候,他们有很多东西,他们是不知道OpenAI怎么做到的,觉得哇他们好厉害,现在OpenAI发布会发了之后,他们看到是说,这个东西我们也知道怎么做,但我们可能还没有像他那样做得那么好,或者那么ready(准备好)去demo,所以我觉得目前来看的话,他们肯定在这上面是有一些这个经验,所以我感觉就是双方的绝对差距还是在缩小的。
Howie Xu
AI及云服务行业高管、斯坦福大学客座教授
相对来讲,Google注重的是一个solution(解决方案),就是解决方案,那个OpenAI目前注重的,更多的还是一个technology(技术),它在technology(技术)上面非常的惊艳,但你说他怎么去跟我们人的日常,不管是生活、工作去结合起来,他没有那么多的人力,他也没这么多思考,而且这不是他的强项。
Google IO的那个发布,看上去可能从某些角度来讲,好像还没有那个前一天,OpenAI的东西那么惊艳,但实际上我觉得很惊艳,我觉得惊艳不只是说是一个model(模型)的惊艳,model只是一个维度,还有其他维度,怎么跟我的生活、工作能够结合起来,比如说跟我的手机结合起来,它一些的announcement(发布)是这个技术,所以说AI这件技术,我觉得今天落地是一个很大的一个挑战,或者说一件事情。
所以可以预期到,接下来,多模态的继续整合和优化,以及将AI功能整合到谷歌的各个产品中,以及AI agent(人工智能体)的引入,将会是谷歌发力的重点。除此之外,这两场发布会听下来还让我非常感兴趣的一点是,硬件。
OpenAI整个demo用的是苹果手机和苹果电脑,谷歌用的是安卓手机和硬件,同时还在视频demo中提到了一个谷歌内部类似谷歌眼镜一样的prototype原型设配,所以接下来,硬件和AI大模型的整合,也到了加入战场的时刻。而这个赛道的老大,苹果,在干什么呢?
04、移动端AI大战开启,苹果即将入局?虽然苹果公司在这轮硅谷科技巨头AI大战中迟迟没有发声,但最近有不少的舆论风向稍微给我们勾勒出了苹果潜在的想法和布局。
目前市场都在等待6月10日举行的苹果2024年全球开发者大会WWDC,预计会在届时会宣布一系列在AI和硬件上的产品发布。
包括可能会和OpenAI合作,将ChatGPT整合到 iOS 18 操作系统,此外,外界期待苹果会宣布利用大模型完整升级Siri,给用户提供AI赋能的交互体验,还有苹果如何将大模型塞进手机移动端的“苹果全家桶”,也是马上召开的苹果发布会的最大看点。
今年早前,苹果发布了一系列的论文,包括第一个手机端UI多模态大模型Ferret-UI。
还有今年一月发布的一篇将大模型塞进 iPhone 的关键性论文,“使用有限的内存实现更快的LLM推理”。
还有这篇,苹果Siri团队在论文《利用大型语言模型进行设备指向性语音检测的多模态方法》中讨论了去掉唤醒词的方法。