专访昆仑万维CEO方汉：国产大模型的差距不在算力或数据，在于工程经验(3)

时间：2023-04-19 14:40:03来源：界面新闻

方汉：对的，资源是一张门票，比方说没有2000张GPU，你连训练都做不了，但有资源之后，那就是拼工程上的经验。工程上的技巧和经验是大模型竞争的主要因素，比拼的是做实验的速度和人才的厚度。

界面新闻：如何理解工程经验？

方汉：以训练数据为例，其实业界最难的不是找数据，而是如何丢数据。什么样的数据不用？筛选数据的标准是什么？如何做数据的剪枝、清洗等。

通过筛选数据调整参数、改进模型设计才是最核心的机密，这也是OpenAI没有在论文中公开的核心技术。

界面新闻：据悉GPT-3.5训练1750参数所用的3000多亿单词训练语料有60%来自于C4数据集（谷歌开源的Colossal Clean Crawled Corpus）。C4数据集含有上万亿的经过清洗的、分类规整的英文单词，而目前国内已知的最大中文语料库TUCNews（清华大学开发）只有7亿左右的中文词汇，如何看待这种落差？

方汉：公共的大型中文语料数据库的缺失是客观存在的差距，也不是一时半会能赶上的。我觉得国家层面也会意识到中文数据的重要性，未来会进行政策上的改进。

基本上各家的训练语料库也不会公开，所以我认为，短时间内大模型的涌现不会让中文语料数据库的改观特别大。

还有一个值得重视的现象，由于大模型本身的能力能够进行语言间的知识迁移，这就导致能够生成海量的中文语料。未来如何看待以及管理AI生成的中文语料库是重要问题。

界面新闻：现在大公司都在抢发产品，未来大模型是否会成为主流大厂人手一个的标配，进而使该领域进入到割据封闭的壁垒生态？

方汉： 虽然行业还是非常早期的抢跑入场阶段，但未来会如同操作系统的发展历史一样，Windows与Linux：大厂会拥有质量最高的大模型，开源界也会出现相对质量还OK的模型，融易新媒体，这样的开源大模型会成为中小型企业、用户的选择，帮助他们基于这些大模型去做自己的二次开发和工作。

未来的大模型生态主要有两类参与者，一类做底层模型，一类做上层的应用产品。我认为这个生态会相对均衡，不会一家独大。