时间:2024-12-11 04:40:01来源:界面新闻
Self-Play RL(自我博弈下的强化学习)虽然可以让模型自动生产数据来学习,但仍然需要人工的参与,并且是高质量的参与,其中就包括人工标注数据来告诉它结果好还是不好。
李江形容,数据标注既吃人力又吃学历,是一份看起来蓝领,但又特别要求白领的工作。“如果你没有模型聪明,你就没有价值,所以你要比模型的谜底还好,而这份工作又特别枯燥,这样的行业专家不好找。”
o1这条路未来可能遇到的最大瓶颈还是来自通用性,也就是模型的泛化能力。例如,o1的数学、编程类能力尤其突出,但弱逻辑类的能力培养还有待解决。
强化学习中有一个关键环节叫做Reward Model(奖励模型),用于评估Agent的行为表现,并指导其学习过程。在特定垂直领域,奖励机制可以写得清楚明晰,但面对更加泛化和开放的场景,Reward Model将变得难以定义,这也是以o1范式在实现通用性过程中要突破的重要关卡。
“这是一个悬而未决的问题。”李江说,这再次回到了各家科研能力的比拼上。即便是在公司内部,这种“灵感”现在也无法随意讨论,“因为这个事情太新了,‘灵感’要真金白银才能烧出来。”
事实上,大模型未来在提升强化学习模型的泛化性上会遇到什么困难,还不得而知,短期内能够复现某个垂直领域的国产o1就是一种胜利。开始习惯这个领域技术波动的李江就是这样想的,“在这个阶段,做长远的Road Map(路线图)毫无意义。”
好学生的“附加题”云启资本合伙人陈昱每半年就要飞一趟美国,定期看看那边发生了什么,这让他对o1有一个更为冷静和理智的看法。
诚然,o1代表了OpenAI在解决复杂问题上的探索,但它仍然有很大的局限:成本约为GPT-4o的6倍,使用次数的限制,较长的等待时间,以及一些简单问题仍然会出错的状况,目前的形态更像是给学有余力的好学生去做的“附加题”。
答好这道“附加题”要投入多少资源?此前据腾讯新闻《潜望》报道,王小川在接受采访时曾预估称,“可能跟做个GPT-4差不多”。而朱啸虎给出的谜底是,做GPT-4的科研至少要砸四五千万美金。
目之所及,国内大模型公司要跟进做o1必须满足两个硬性条件。一是拥有这笔可支配的资源。据另一名受访投资人透露,“六小虎”当中,一些公司账上的钱可能不够。二是基础模型的性能水平门槛。李江的判断是,“至少要接近GPT-4的水平,不然不在牌局里。”
这意味着“六小虎”的下一步,有钱的可以继续跟注,没钱但想跟注的要继续找钱,如果都行不通,就只能找差异化。
不久前已经有行业传闻称,“六小虎”中的两家正在逐步放弃预训练模型,缩减了预训练算法团队人数,业务重心转向AI应用。
一时间,“六小虎放弃大模型”的说法甚嚣尘上。遭外界猜测得最多的零一万物和百川智能,均迅速对外界进行了否认。
前述受访投资人对界面新闻记者表示,还没有看到实质性证据能够表明“六小虎”中有公司放弃了预训练,现阶段它们也没有理由放弃。他推测有一种可能是,有团队暂时性完成了基础模型的预训练,重心转向了后训练阶段。
“要知道‘六小虎’并不是OpenAI,也不可能OpenAI的所有尝试都要去跟。”这名投资人指出,“这当中需要有战略选择。”
这种战略选择的决定性条件,是掌舵者对AGI的理解。例如,有人认为多模态的理解与生成统一是AGI的必经之路,也有人认为,AGI的关键仍然在于语言智能。这会导致不同的路线,大模型公司可能自此分化:视频模型,音频模型,高级推理等等。
除了创业公司,大厂也在积极跟进。有知情人士透露,目前,字节跳动和阿里巴巴都已有意向聚焦o1代表的技术方向,继续推动大模型的推理性能提升。不过,大厂的优势将更不明显。
李江直言,在上一个竞争阶段,文心一言、通义千问、混元、豆包等产品,并没有跟创业公司完全拉开差距。而在o1路线上,这种优势也许会更加微弱,因为它对算力资源的要求不如之前高,也更考验技术团队的灵活性。
大变革,但不一定激发大商机投资人也听到不少所谓行业动荡的风声,但他们的大致体感是,在车上的都没有动摇过,不断动摇的都是没上车的。
“我们没有不看好过。”前述投资人说,“外面所谓的舆论是我们两三年前就知道的事实,不觉得有什么预期上的偏差。”
之所以不动摇,来自于一个长期判断:AGI能实现,绕不开大模型,而o1的出现说明了AGI可以实现,它的确提振了资本的信心。
这也将很大程度上决定大模型公司的融资命运。