时间:2024-12-11 04:40:01来源:界面新闻
o1就是现阶段所有人的灵感。它提出了一个新思路。根据这家公司显示的技术信息,除了加入强化学习和思维链,它的本质变化是将Scaling Up的方法从预训练阶段转移到了推理阶段,让模型在“推理时计算”中获得更高的智能水平,也就是Post-Training Scaling Law(后训练扩展律)在发挥作用。
这套新范式的力量真有这么大吗?在技术上如何理解o1范式可能加速AGI进程?
大模型行业上一个重要技术转变是从Dense Model(稠密模型)到MoE架构(Mixture of Experts,混合专家模型)。这个变化本身带来的是速度提升,而没有太多能力提升,技术曲线从这里开始变缓和。但推理层强化学习可能改变这条曲线,它对应的是投入资源和所能达到智能上限的关系——模型智能水平由此可能实现突破。
大佬们的观点是相近的。在o1发布一周后,阶跃星辰CEO姜大昕公开表示,o1是大模型首次同时具备人类大脑System 1和System 2的能力,这是大模型开始具备归纳世界能力的关键一步。月之暗面创始人兼CEO杨植麟直言,o1的主要意义在于提升了AI的上限,很大程度上证明了这套范式对于下一步Scaling Up初步可行。
换句话说,o1代表的技术范式还不至于是AGI的直通车,但它的确是一列全新的特快车。
界面新闻记者从不同信源处了解到,Minimax已经在推进类o1产品,预计最快明年一季度发布。月之暗面和阶跃星辰目前的主要精力可能仍是年底计划发布的多模态大模型,但o1也都在其各自的技术路线图上。
百川智能在强调医疗方向的落地场景后,暂时还没有透露出要加码o1方向的信号,不过内部一直有强化学习的训练经验。此外,融易新媒体消息,多名受访者认为,智谱AI大概率会跟进o1,而李开复则明确表示,包括零一万物在内,预计五个月后就会有不少类似o1模型的能力出现在各个公司。
“国内大模型公司都是抄OpenAI的路线,既然它蹚出了一条路,你也没有这么多试错成本,为什么不去copy它?”李江认为,这个选择理所当然。
不比GPT-4简单强化学习不是新东西。在此之前,很多大模型团队都在尝试强化学习这条路,只不过更快验证其正确性的依旧是OpenAI。
“但凡是做过机器学习的,这个方法你一定会想得到,只是说愿不愿意投这么多资源去试这条路。”李江说。
事实上,它还是今年诺贝尔化学奖其中两位获得者所在公司DeepMind的拿手好戏。这家公司用深度学习和强化学习的思路在很多垂直领域作出了突破贡献,比如AlphaFold和AlphaGo。
至于o1为何现在才出现,一名大模型技术从业者对此解释道,一方面,模型参数的量级不同,这是决定性差距;另一方面,这当中的关键变量是强化学习和大模型的碰撞。如果以o1为结果,大模型和强化学习是一组由“乘号”连接的齿轮关系,但凡其中一种弱,整体都不会太强。
就技术而言,从业者认为o1比GPT-4更难,因为这当中的知识不会公开,团队必须自己尝试。“post-training(后训练)里面的秘密很多,而且越来越寡头化。”前述受访投资人说,“在这场竞赛里,技术能力和技术vision(视野)的占比变高了。”
也就是说,它需要天才的技术灵感,外加可落地的工程能力。
“最重要的是,首先有人能想得出整体的架构怎么做。”李江表示,做这件事需要的是天才,而不是“搭建一个50人团队”。相当于OpenAI o1现在是“黑盒”,创业公司需要分配更多精力给强化学习,靠研究能力把“黑盒”变成“白盒”。
工程上也还有大量的细节和难点。例如,算力方面,由于推理层的算力需求可能会出现爆发式增长,优化AI Infra(基础架构)以快速降本的意义进一步凸显。数据方面,这套新范式相当于将一个Agent(智能体)内置到模型中,因此,自动化数据训练的pipeline(管道)也需要重新构建。
它同时提升了数据标注的难度和复杂度。生数科技首席科学家朱军在今年的云栖大会上谈论过,从科研的角度看,这当中过程监督的数据变得十分重要。它和直接从结果监督的数据不一样,是要对思考过程的每一步进行标注,这种数据由于需要专业人士投入,因而具备一定获取难度和高价值。
王小川也曾表示,他对o1的好奇有很多,例如拥有多少算力,以及多少领域专家。这大致对应o1训练数据的规模和质量。