电厂丨技术积累和商业落地，讯飞星火认知大模型找到了最快的行动方式

时间：2023-05-13 10:48:04来源：互联网

5月9日，中文通用大模型综合性评测基准 SpuerCLUE（A Benchmark for Foundation Models in Chinese，下称「中文通用大模型基准」）正式发布。

在这份榜单中，除了OpenAI 在 2022 年发布的 GPT-3.5 与 2023 年发布的迭代款 GPT-4 之外，排在第三位的，是刚刚发布的星火认知大模型，即科大讯飞星火大模型（下文简称「星火大模型」）。

据科大讯飞介绍，星火大模型是科大讯飞历史五个多月研发所推出的大模型产品；按照科大讯飞董事长刘庆峰的说法：科大讯飞星火大模型的语言理解能力「已经走在了业界、中国同行中的最前列，跟 ChatGPT 已经非常接近」。

对于任何一个尝试发布大模型的中国科技企业来讲，在发布大模型相关的产品时，都不可避免地要被拿来与OpenAI的 ChatGPT 做对比，同时也被要求在中文语境下实现类似 ChatGPT 的通用智慧能力，这意味着大模型本身不仅要有足够的多模态交互能力，还要具备足够强的跨语种通用理解能力。过去多个国内大模型对话产品都在这中文的综合表现上栽了跟头，拖累了整体的评价，中文语境甚至不像是「护城河」，更像是一种「诅咒」。

星火大模型在语言理解能力上，在目前的版本中就已经表现出很强的中文语境适应性：比如发布会上现场演示的。科大讯飞研究院院长刘聪曾在发布会现场提问，「俗话说男子汉大丈夫宁死不屈，但又说男子汉大丈夫要能屈能伸，请问这两句话怎么理解」以及「如果一个小伙子跟女朋友吵架了，他应该宁死不屈还是能屈能伸呢」这样的辩证问题，星火大模型均出色地理解了句子在特定场景下所代表的含义。

电厂丨技术积累和商业落地，讯飞星火认知大模型找到了最快的行动方式

除了针对中文能力之外，任何大模型对话都离不开模型数据的快速迭代，这也是SuperCLUE 对模型能力的评判规则 —— 语义理解、对话、逻辑推理，以及涵盖数学、物理地理等专业知识的覆盖，以及针对中文大模型产品的特殊评判维度的原因。

电厂丨技术积累和商业落地，讯飞星火认知大模型找到了最快的行动方式

当前周期内，各种大模型都处于飞速迭代更新的过程中，并且新的大模型认知对话产品仍不断涌现，因此榜单排名会跟随周期性的测试结果而变化。只有不断扩充大模型的数据集、扩大能力覆盖范围。

刘庆峰表示，文本生成和数理能力一定程度代表了一个大模型的聪明程度，“星火”大模型不仅在国内系统中显著领先，相比ChatGPT也具有一定优势；而在语言理解和知识问答方面也达到接近ChatGPT水平，处于国内领先水平；逻辑推理和代码能力已经是国内领先。

此外，在这场发布会上，科大讯飞董事长也提出了产品升级的确切时间表，他表示星火大模型还将在2023 年内，预计进行三次迭代升级，分批次增强数学能力、补足代码能力：在 6 月 9 日，首先将突破开放式问答（即实时问答），通过类搜索插件将知识抓取，再以更智能的方式自行总结并通过多轮对话能力逐一帮助用户完成指令。

到8 月 15 日，星火大模型的代码能力会上一个大台阶，此时也将更加方便开发者、合作伙伴在企业内部使用，多模态的交互能力也将正式开放给用户。最终，在今年的 10 月 24 日科大讯飞全球开发者大会期间，星火大模型在英文环境下的能力，将能够全面对标 ChatGPT，同时在中文语境体验将完全超越 ChatGPT。

电厂丨技术积累和商业落地，讯飞星火认知大模型找到了最快的行动方式