专访昆仑万维CEO方汉：国产大模型的差距不在算力或数据，在于工程经验(2)

时间：2023-04-19 14:40:03来源：界面新闻

方汉：这之间有一个上下游的区别。预训练大模型是作画、编程、作曲这样的多模态AIGC应用的底层基础。而我们的作曲应用天工乐府、编程应用天工智码都是基于自研的天工系列模型，天工巧绘的下游基于Stable Diffusion模型。这次天工3.5大模型正式推出后，我们可以用来替代它的底层模型。

天工3.5并不是突然从石头中蹦出来的大模型，我们的合作方奇点智源在2021年就已经发了130亿参数的大模型，之后不断去迭代它的中间模型。天工3.5是目前的里程碑应用，这之前还有很多中间模型，只是没有对外发布。

界面新闻：在产品公开测试后，用户喜欢提一些刁钻的问题来难倒大模型，你认为这种对话测试能真实反映大模型的能力吗？

方汉：大家现在喜欢难倒大模型的问题，像脑筋急转弯、段子和网络梗，大部分都属于语义问题。脑筋急转弯是一种语言游戏，用它来考可以，也是一个很有娱乐性的话题，我并不反对。

但从大模型落地的角度，这类问题在实践生活并不是大多数用户真正想解决的问题。用户当下的需求是写作业、做PPT开会等等，就是说我们要更多从人类的通用治理上考核大模型，考核一种普适性的能力。

界面新闻：国内已经开启测试同类型的大模型产品，你都有试用过吗，体验如何？

方汉：你现在就像训练机器模型一样，不断地变换提示词（prompt）希望我来评价友商，但人类不会犯这种错误（笑）。

市面上的大模型产品我有部分试用过，但不适合公开点评个人体验。

界面新闻：昆仑万维2020年6月开始布局AIGC之时就已经确定要自建大模型吗？

方汉： 我们一开始就打算直接从底层做预训练的大模型。因为2020年底左右，当时开源模型项目也不多，唯一的GPT-3也没有开源，国内厂商唯一的路线就是自建，不存在做应用的选项。

界面新闻：在此过程中，AIGC的优先级是怎样的？部门规模如何？内部由谁带队？

方汉：现在同行互相挖人这么厉害，对外只能统一说由我带队。

优先级是一个动态变化的过程，我们不能说自己两年前就能未卜先知，最初是一个带有预言性质的探索项目，肯定不如已经产生收入的主营业务重要。直到去年年底发布“天工”系列AIGC产品时，我们已经把优先级提到一个很高的位置，现在的战略是“All in AIGC”。

人员规模的具体数字不便透露，人才资源现在应该是各个公司最机密的部分。

参考OpenAI的创业先例，几十人、百人左右的团队足以搞出来大模型。

界面新闻：公司据称已经投入数千万美元在项目上，主要的成本项在那些地方？

方汉：最大的成本肯定是采购训练卡，买或者租英伟达的A100系列GPU，然后是人力成本。

界面新闻：对于当下热议“国产大模型缺算力还是还缺数据”，你怎么看？

方汉：从现在发布一款入门级的大模型来说，我觉得两样都不缺。

从算力的角度看，现在都知道OpenAI大概拥有28000张卡，更多可能超过3万。但其实2021年时，他们大概只有4000张，2022年8月份以前有6000张，那时GPT-3.5、GPT-4都已经训练完了。

OpenAI所用到的数据主要是著名的开源数据语料库，国产厂商百分之七八十也能拿到。目前国产大模型厂商都是将英文数据、中文数据一起用做预训练的。中文语料的质量是不如英文，这是客观事实，但目前通过混用模式已经足够训练模型。

界面新闻：现在国产大模型的差距主要不在资源端？

相关文章

中经评论：家装服务行业亟待规范
身边的很多朋友都遭房屋装修折磨过，甚至有过一次装修经历，恨不得今后再也不装修了。装修让人们对居住环境改善怀有美好期待，本该是件高兴的事，...: 扶持中小企业尚需发力强镇兴村需精耕细作法国开启再工业化“绿色纪元” 银行也不能乱收费破产重整需要多方协同

近期热点

中经评论：家装服务行业亟待规范 10-28

扶持中小企业尚需发力 10-28

强镇兴村需精耕细作 10-28

法国开启再工业化“绿色纪元” 10-28

银行也不能乱收费 10-28

热门文章