时间:2024-12-11 04:40:01来源:界面新闻
“我听说o2在GPQA上获得了105%。”几天前,山姆·奥特曼在X平台上突然发了这么一句话,但马上又写道,“见鬼!账号错误!”
这位掌控OpenAI公司的CEO,就这样以如此戏剧性的玩笑方式透露了OpenAI o2的进展。GPQA(Graduate-Level Question Answering)是一项研究生水平科学知识问答能力的基准测试,此前,OpenAI o1在这项测试中仅得到78%的成绩。
o2的得分也大概率不会超过100%,但这番“鬼才营销”仍然引起了全网热议。
当国内大模型领域还没有复刻出o1-preview一星半点的时候,OpenAI已经在“有意”透露具备多模态能力的全面版o1了。它能看懂并正确解答复杂数学题,识别人类史上首张黑洞照片,这使得外界对o2的能力更为好奇,也吸引一众国内大模型玩家朝着o1跃跃欲试。
“AGI有救了。” o1发布那天,李江一早就把一篇介绍OpenAI o1的科普文章从头读到尾,一颗心稍微沉下来些。
过去几个月,李江一直处在焦虑之中。GPT-5迟迟没有发布,一种隐隐的压力围绕在和李江一样的大模型从业者周围。外界舆论从最初的追捧,变成猜测“六小虎”中哪家公司会扛不住先关门,或者遭收购。
智谱AI、百川智能、月之暗面、Minimax、零一万物、阶跃星辰这六家中国大模型初创公司,遭业界冠以“六小虎”之称。过去一段时间,他们都拿到了数十亿乃至百亿人民币级别的融资,都在烧钱抢算力、抢人才,希望成为中国的“OpenAI”。
随着大模型从业者们信仰的Scaling Law(规模法则)遇到瓶颈,所有长远宏大的商业故事都要讲不下去了。“Scaling Law”是有关模型性能随着参数量、数据量、计算资源等增加而变化的规律,此前几乎是抵达AGI(通用人工智能)的唯一通路。
这种境况下,模型训练不得不脱离“大力出奇迹”的轨道。据《中国企业家》报道,百川智能CEO王小川近日接受其采访时提及,“去年焦虑买不到卡,今年焦虑有卡不知道该干嘛。”很多团队把重心集中在一些微调(Fine-Tuning)工作上,让模型针对特定任务或领域进行优化。
李江所在的公司也是“六小虎”之一,外界的唱衰声不时传进团队成员的耳朵里。虽然大家还是坚信长远的光明,但现在仿佛都遭乌云笼罩,看不清好的方向在哪里。
最终又是OpenAI将这片“乌云”吹散了大半。9月13日,OpenAI发布o1大模型,它改变技术策略,加入了强化学习和思维链,大幅提升了模型的推理能力,也将训练重点从预训练(pre-train)转向后训练(post-train)。
这遭认为是大语言模型带领人类通往AGI的关键技术范式变革。
一名AI领域的投资人对界面新闻记者表示,大模型需要能够使用知识,而不只是具备知识。使用知识的能力是思维,而思维才是人类工作的核心价值。OpenAI o1所展示的思维能力,是大模型从“快思考”向“慢思考”进化的关键指标。
而摆在国内创业者面前的选择题便是,要不要跟进?
考虑到每家公司的领导者对AGI的理解不同,团队技术实力存在差异,落地场景方向各有侧重,以及可跟注的筹码大小不一,国内大模型战局正在显现分水岭。
让所有人能继续抄作业前段时间,零一万物创始人兼CEO李开复去了一趟硅谷,带回不少OpenAI的“八卦”,还在直播间饶有兴致地讲了起来。
据他所述,外界期待已久的GPT-5训练得不太顺利,问题出在如何搞定一个“十万卡集群”上。风光面世的OpenAI o1只是遭临时祭出的产物,这套方法原本没打算这么早公开。但为了吸引投资人继续投钱,这个动作不得不执行。
另一方面,OpenAI也想借此炫技,让外界意识到,“你们只是看起来快追上我了,等我多露两手再看看。”很快,OpenAI宣布融资66亿美元,估值来到1570亿美元。
“其实我们还有很多好东西,只是没有发布。”OpenAI的内部人员对李开复说,“因为我们一发布你们就会学。”
这名OpenAI人士担心得没错,这正是国内大模型领域的追赶状态,甚至成为一种技术学习的策略。
“我们一定要尽快追赶它,让它有压力。”李开复说,“这样它就把一些好东西丢出来,我们大家就有更多的灵感了。”