时间:2024-05-19 00:26:27来源:互联网
相比于GPT-4o提供情绪价值,Project Astra更强调指向人、机器与现实世界的三重交互。用谷歌Deepmind负责人哈萨比斯的话说,这是真正通向AGI的万能助手项目。
此外,谷歌还针对生成式AI大模型Gemini进行了多功能拓展。
谷歌在Gemini Advanced中加入新模型成员Gemini 1.5 Pro,称它拥有的上下文窗口在全球消费类聊天机器人中最长,窗口起始就有100万个Tokens;今年年底,这个数字将遭扩大到200万Tokens,最终目标是无限上下文;Gemini 1.5 Pro将向150 多个国家地区的Gemini Advanced订阅者提供,支持超过35 种语言。
在多模态功能方面,今年夏季谷歌将扩展Gemini用语音进行深入双向对话的能力,该功能遭称为Live。通过 Gemini Live,用户可以与 Gemini 交谈,并可以从各种自然的声音中选择它回应的声音,用户甚至可以按照自己的节奏说话;谷歌还表示,今年年内将加入相机功能,实现实时视频。
完整接入 Gemini 的“谷歌办公全家桶”,也将在未来几个月内陆续上线“智能问答”“智能邮件回复”“表格图像化总结”等新功能。
在谷歌最擅长的搜索上,谷歌在一周内将在美国推出“AI概览”(AI Overviews)功能,搜索引擎会直接归纳总结搜索结果;谷歌还推出了新的TPU,第六代TPU芯片Trillium,较上一代芯片的算力表现翻4.7倍。
可以看到,在全球技术的中心硅谷,OpenAI与谷歌的“厮杀”正如火如荼地进行着。更重要的是,GPT-4o的限量免费抬高了这场竞争的维度,未来的谷歌如何应战,还要看市场后续的表现。
2、卷技术、拼落地、比价格,国内大厂竞逐大模型风口大模型风口之下,AI重构了边界,也掀起了一众创业者和巨头们探索新业务的热情。
当这样的热情来到大洋彼岸的中国,丝毫没有减少。和硅谷的公司几乎同步,国内大厂也在大模型风口上你追我赶。
一个明显的变化是,去年国内大厂还处在大模型军备竞赛的初期,竞相推出大模型产品;今年,经过一年的技术发展,大厂们的竞争点不仅限于技术,还有价格,更重要的是落地场景。
5月9日,阿里云正式发布通义千问2.5,宣布模型性能完整赶超GPT-4Turbo,成为地表最强中文大模型。
在阿里云AI峰会上,阿里云首席技术官周靖人介绍,阿里云大模型API日调用量已经过亿;除了日常2C应用外,也服务了9万家企业客户;尤其在开源场景中,周靖人强调,开源是阿里云的战略。目前通义开源模型下载量已超过700万。
同样选择对外开源的还有腾讯混元文生图大模型。5月14日,腾讯宣布其旗下混元文生图大模型完整升级,并对外开源。这也是首个中文原生的类 Sora 架构开源模型,支持中英文双语输入及理解,参数量15亿。
放眼市场,当下的文生图开源生态,比如Stable Diffusion基本围绕英文语义理解,要先把中文翻译成英文才能生成图片。腾讯混元文生图大模型的出现,打破了这一现状,让文生图生态更了解中文。
值得注意的是,腾讯在大模型上的打法有着明显的产品思维。自去年9月混元大模型上线以来,腾讯采取的就是“大模型全家桶”策略,其内部目前已有超400个业务在接入腾讯混元大模型。比如,此次混元大模型升级后,既可以是微信读书的“AI问书”,也可以是腾讯会议的“AI小助手”。
事实上,关于开源还是闭源,行业的讨论由来已久。百度创始人李彦宏曾表示,“大模型开源的意义其实不是很大,这些开源模型都是在外头零零散散小规模地去做各种各样的验证应用,它没有经过大算力的验证。”
“对百度而言,开源还得自己去维护一套开源的版本,这是不划算的;相反,同等能力下,闭源模型的推理成本一定是更低的,响应速度一定是更快的。”李彦宏认为。
这样的路径之下,百度文心一言采用了闭源模式。近期,百度推出多个轻量级大语言模型,并上线Agent Builder、App Builder和Model Builder三大开发工具,帮助开发者和企业创建智能体、开发AI原生应用和定制模型。
据百度2024年一季度财报披露,发布一年多,“文心一言”用户数突破2亿,文心大模型日调用量也达2亿。
本质上,开源还是闭源,是大模型厂商在成本和技术上衡量。尤其是在大模型应用市场,大家都试图推出更普惠的大模型应用。
最突出的是字节豆包大模型。5月15日,尽管没有公布榜单成绩和参数规模,但豆包大模型靠价格出圈了。