大模型也疯狂：字节卷价格、腾讯终开源，OpenAI与谷歌互搏(2)

时间：2024-05-18 22:11:31来源：互联网

其中最引人注意的两个动作，一个是宣布混元文生图大模型对外开源，未来落实还会开源文生文大模型；另一个则是将在 5 月 30 日正式发布元宝 APP，这个大模型产品中集合了搜索、文档总结、翻译官和口语陪练等功能。

元宝 APP 是腾讯混元大模型第一款面向 C 端的独立产品。在豆包和文心一言等 APP 占领的国内市场中，腾讯还能拿下多少 AI 用户规模？显然是一件值得期待的事情，毕竟豆包 APP 2600 万的月活并不是一个很高的天花板。

而混元大模型开源的技术路线，也标志着腾讯在大模型之路上开始站队。

值得注意的是，腾讯混元大模型选择开源的文生图大模型，是与 OpenAI 发布的文生视频模型 Sora 相同的 DiT（Diffusion Models with transformer）架构，是业内首个中文原生的 DiT 架构，不仅能够支持文生图，也能作为视频等多模态视觉生成的基础。此外，混元文生图大模型支持中英文双语输入及理解，参数量 15 亿。

腾讯在最新一季的财报会提到，腾讯在微信和 QQ 等很多服务中都部署了混元大模型。

广告可能是大模型最先见效的业务，正如 Meta 基于大型语言模型 Advantage+ 改进了他们的广告工具。腾讯混元文生图能力，已经广泛遭用于素材创作、商品合成、游戏出图等多项业务及场景中。

今年年初，基于腾讯混元大模型，腾讯发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具，有效提高了广告生产及投放效率。

但目前看来，混元大模型对腾讯核心的游戏业务帮助度并不高。财报会上提到游戏上尚未用上生成式 AI，混元可以利用 NPC 创造某种互动体验，但还不能取代现有的游戏内容创作。目前游戏业务中是使用混元最大的场景是客服。

OpenAI 选择闭源大模型，谷歌则是开源路线。国内市场，除了百度是闭源路线，阿里的通义千问、百川智能、昆仑万维等公司都属于开源路线，发布过不同参数的开源大模型。如今，腾讯也站队开源，只能说明开源大模型大概率是未来大势所趋。

当下，开源和闭源的路线之争还难见分晓，「在开源和闭源的问题上，我们认为两者都有其独特的价值和作用。我们已经有计划在未来开源更多的模型，同时我们也在积极地开发通用人工智能，并探索如何广泛地分配其带来的利益。」OpenAI 创始人奥特曼最近表态说。

智源研究院副院长林咏华也曾对《财新》指出，模型需要的是机构持续投入迭代创新，一旦落后很容易遭替代，而软件工具链则是技术积累、不断做加法，不会突然间遭取代。「模型一直会是后浪推前浪，最开始热闹的未必能笑到最后，反而是工具链通过生态的不断积累能够建起护城河。」

3、OpenAI 进攻，谷歌反击

GPT-4o 让人眼前一亮的，就是其生动的交互体验。

在其展示的视频中，GPT-4o 作为一个大模型语音助手，可以随时遭用户的指令打断，在不同的情绪和语调中切换自然、实时响应，这让 GPT-4o 大大超越了以往的人工智能语音助手。

而之所以命名为 o，就是因为其可以处理文本、音频和图像的组合。GPT-4o 可以通过手机摄像头看到现实世界的情况，例如可以给一位视障男子叫一辆出租车，告诉他车辆在靠近以及何时挥手。GPT-4o 还可以是一个数学老师，在识别数学问题之后，通过语音指令一步步循循善诱的告诉孩子如何解答这道题。

GPT-4o 在翻译、会议场景、语言培训方面的用途显然极具想象力，「GPT4 的实际可用性太强了，现在开发者面前有个以小博大的机会，就是立刻做一个 GPT-4o 的套壳，去吊打市面上所有的 AI 陪伴类产品，这是一个典型的新技术带来 10 倍好体验 x OpenAI 不会做的方向。」有国内的大模型开发者这样认为。

更重要的是，大模型装上了眼睛、耳朵和嘴巴，势必会带来 ChatGPT 在用户层面的进一步渗透。

行业分析人士认为，从 OpenAI 的产品路线看，「当下发布的 GPT-4o 大概率只是 GPT-4.5 的一部分，估计 GPT-4.5 拆成两个版本发完才会到 GPT-5」，而 GPT-5 将在当前的技术基础上实现巨大的飞跃。

要想在未来几周内体验 GPT-4o，仍需要成为付费 ChatGPT-Plus（该公司每月 20 美元的功能）的用户，而对于企业用户来说，GPT-4o 的速度将是其当前顶级产品 GPT-4 Turbo 的两倍，成本仅为其一半。

这也摆明了一个事实，那就是好东西都不会免费，GPT-4o 的推出意味着科技巨头们越来越急迫的扩大付费用户规模，以平衡在研发上投入的巨大资金和费用。

共3页:

【2】

【3】