时间:2024-05-18 22:11:31来源:互联网
其中最引人注意的两个动作,一个是宣布混元文生图大模型对外开源,未来落实还会开源文生文大模型;另一个则是将在 5 月 30 日正式发布元宝 APP,这个大模型产品中集合了搜索、文档总结、翻译官和口语陪练等功能。
元宝 APP 是腾讯混元大模型第一款面向 C 端的独立产品。在豆包和文心一言等 APP 占领的国内市场中,腾讯还能拿下多少 AI 用户规模?显然是一件值得期待的事情,毕竟豆包 APP 2600 万的月活并不是一个很高的天花板。
而混元大模型开源的技术路线,也标志着腾讯在大模型之路上开始站队。
值得注意的是,腾讯混元大模型选择开源的文生图大模型,是与 OpenAI 发布的文生视频模型 Sora 相同的 DiT(Diffusion Models with transformer)架构,是业内首个中文原生的 DiT 架构,不仅能够支持文生图,也能作为视频等多模态视觉生成的基础。此外,混元文生图大模型支持中英文双语输入及理解,参数量 15 亿。
腾讯在最新一季的财报会提到,腾讯在微信和 QQ 等很多服务中都部署了混元大模型。
广告可能是大模型最先见效的业务,正如 Meta 基于大型语言模型 Advantage+ 改进了他们的广告工具。腾讯混元文生图能力,已经广泛遭用于素材创作、商品合成、游戏出图等多项业务及场景中。
今年年初,基于腾讯混元大模型,腾讯发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。
但目前看来,混元大模型对腾讯核心的游戏业务帮助度并不高。财报会上提到游戏上尚未用上生成式 AI,混元可以利用 NPC 创造某种互动体验,但还不能取代现有的游戏内容创作。目前游戏业务中是使用混元最大的场景是客服。
OpenAI 选择闭源大模型,谷歌则是开源路线。国内市场,除了百度是闭源路线,阿里的通义千问、百川智能、昆仑万维等公司都属于开源路线,发布过不同参数的开源大模型。如今,腾讯也站队开源,只能说明开源大模型大概率是未来大势所趋。
当下,开源和闭源的路线之争还难见分晓,「在开源和闭源的问题上,我们认为两者都有其独特的价值和作用。我们已经有计划在未来开源更多的模型,同时我们也在积极地开发通用人工智能,并探索如何广泛地分配其带来的利益。」OpenAI 创始人奥特曼最近表态说。
智源研究院副院长林咏华也曾对《财新》指出,模型需要的是机构持续投入迭代创新,一旦落后很容易遭替代,而软件工具链则是技术积累、不断做加法,不会突然间遭取代。「模型一直会是后浪推前浪,最开始热闹的未必能笑到最后,反而是工具链通过生态的不断积累能够建起护城河。」
3、OpenAI 进攻,谷歌反击GPT-4o 让人眼前一亮的,就是其生动的交互体验。
在其展示的视频中,GPT-4o 作为一个大模型语音助手,可以随时遭用户的指令打断,在不同的情绪和语调中切换自然、实时响应,这让 GPT-4o 大大超越了以往的人工智能语音助手。
而之所以命名为 o,就是因为其可以处理文本、音频和图像的组合。GPT-4o 可以通过手机摄像头看到现实世界的情况,例如可以给一位视障男子叫一辆出租车,告诉他车辆在靠近以及何时挥手。GPT-4o 还可以是一个数学老师,在识别数学问题之后,通过语音指令一步步循循善诱的告诉孩子如何解答这道题。
GPT-4o 在翻译、会议场景、语言培训方面的用途显然极具想象力,「GPT4 的实际可用性太强了,现在开发者面前有个以小博大的机会,就是立刻做一个 GPT-4o 的套壳,去吊打市面上所有的 AI 陪伴类产品,这是一个典型的新技术带来 10 倍好体验 x OpenAI 不会做的方向。」有国内的大模型开发者这样认为。
更重要的是,大模型装上了眼睛、耳朵和嘴巴,势必会带来 ChatGPT 在用户层面的进一步渗透。
行业分析人士认为,从 OpenAI 的产品路线看,「当下发布的 GPT-4o 大概率只是 GPT-4.5 的一部分,估计 GPT-4.5 拆成两个版本发完才会到 GPT-5」,而 GPT-5 将在当前的技术基础上实现巨大的飞跃。
要想在未来几周内体验 GPT-4o,仍需要成为付费 ChatGPT-Plus(该公司每月 20 美元的功能)的用户,而对于企业用户来说,GPT-4o 的速度将是其当前顶级产品 GPT-4 Turbo 的两倍,成本仅为其一半。
这也摆明了一个事实,那就是好东西都不会免费,GPT-4o 的推出意味着科技巨头们越来越急迫的扩大付费用户规模,以平衡在研发上投入的巨大资金和费用。