时间:2023-04-19 14:40:03来源:界面新闻
方汉:这之间有一个上下游的区别。预训练大模型是作画、编程、作曲这样的多模态AIGC应用的底层基础。而我们的作曲应用天工乐府、编程应用天工智码都是基于自研的天工系列模型,天工巧绘的下游基于Stable Diffusion模型。这次天工3.5大模型正式推出后,我们可以用来替代它的底层模型。
天工3.5并不是突然从石头中蹦出来的大模型,我们的合作方奇点智源在2021年就已经发了130亿参数的大模型,之后不断去迭代它的中间模型。天工3.5是目前的里程碑应用,这之前还有很多中间模型,只是没有对外发布。
界面新闻:在产品公开测试后,用户喜欢提一些刁钻的问题来难倒大模型,你认为这种对话测试能真实反映大模型的能力吗?
方汉:大家现在喜欢难倒大模型的问题,像脑筋急转弯、段子和网络梗,大部分都属于语义问题。脑筋急转弯是一种语言游戏,用它来考可以,也是一个很有娱乐性的话题,我并不反对。
但从大模型落地的角度,这类问题在实践生活并不是大多数用户真正想解决的问题。用户当下的需求是写作业、做PPT开会等等,就是说我们要更多从人类的通用治理上考核大模型,考核一种普适性的能力。
界面新闻:国内已经开启测试同类型的大模型产品,你都有试用过吗,体验如何?
方汉:你现在就像训练机器模型一样,不断地变换提示词(prompt)希望我来评价友商,但人类不会犯这种错误(笑)。
市面上的大模型产品我有部分试用过,但不适合公开点评个人体验。
界面新闻:昆仑万维2020年6月开始布局AIGC之时就已经确定要自建大模型吗?
方汉: 我们一开始就打算直接从底层做预训练的大模型。因为2020年底左右,当时开源模型项目也不多,唯一的GPT-3也没有开源,国内厂商唯一的路线就是自建,不存在做应用的选项。
界面新闻:在此过程中,AIGC的优先级是怎样的?部门规模如何?内部由谁带队?
方汉:现在同行互相挖人这么厉害, 对外只能统一说由我带队。
优先级是一个动态变化的过程,我们不能说自己两年前就能未卜先知,最初是一个带有预言性质的探索项目,肯定不如已经产生收入的主营业务重要。直到去年年底发布“天工”系列AIGC产品时,我们已经把优先级提到一个很高的位置,现在的战略是“All in AIGC”。
人员规模的具体数字不便透露,人才资源现在应该是各个公司最机密的部分。
参考OpenAI的创业先例,几十人、百人左右的团队足以搞出来大模型。
界面新闻:公司据称已经投入数千万美元在项目上,主要的成本项在那些地方?
方汉:最大的成本肯定是采购训练卡,买或者租英伟达的A100系列GPU,然后是人力成本。
界面新闻:对于当下热议“国产大模型缺算力还是还缺数据”,你怎么看?
方汉:从现在发布一款入门级的大模型来说,我觉得两样都不缺。
从算力的角度看,现在都知道OpenAI大概拥有28000张卡,更多可能超过3万。但其实2021年时,他们大概只有4000张,2022年8月份以前有6000张,那时GPT-3.5、GPT-4都已经训练完了。
OpenAI所用到的数据主要是著名的开源数据语料库,国产厂商百分之七八十也能拿到。目前国产大模型厂商都是将英文数据、中文数据一起用做预训练的。中文语料的质量是不如英文,这是客观事实,但目前通过混用模式已经足够训练模型。
界面新闻:现在国产大模型的差距主要不在资源端?