Kimi掀起大模型长文本之战

时间：2024-04-02 17:37:55来源：界面新闻

凭借“长文本”标签，月之暗面从国内一众AI大模型公司中脱颖而出，打破了这个行业在产品上大同小异、技术上难分伯仲的刻板印象。

去年10月，由杨植麟创办的月之暗面发布首款大模型产品智能助手Kimi Chat，将上下文窗口长度扩展至20万字。彼时，Anthropic的Claude2-100k和OpenAI的GPT4-32k支持的最长文本分别为100K（约8万汉字）和32K（约2.5万汉字），Kimi是这两者的2.5倍和8倍。

这一步踩对了C端（用户端）需求的节奏，大模型技术规模化应用的可能性遭刻画出更清晰路径。用户蜂拥而至，Kimi日活用户从10万规模直逼百万量级。

一把火扔进了迷雾中的行业，此前喧嚣沸腾但迟迟找不到亮光的竞争者纷纷卷入“长文本”浪潮，百川智能的Baichuan2-192K（约35万汉字）、零一万物的Yi-34B（约40万汉字）等大模型先后打破Kimi的记录。

但不等半年时间，Kimi重新夺回主动权，并将风浪掀得更高。

3月18日，Kimi将上下文输入限制突破至200万汉字。这轮热度一度致其小程序宕机，甚至于在二级市场形成Kimi概念股板块，一家创业公司左右资本情绪的戏码罕见上演。互联网大厂亦开始明牌上桌，阿里通义千问开放1000万字长文档处理功能，百度文心一言也即将释放200万至500万长度处理能力。

长文本战场的火药味渐浓，但长文本是否有极限？它对实现AGI（通用人工智能）和大模型技术的应用层繁荣有什么意义？在这场行动陷入无意义漩涡之前，行业理应对此抱有谜底。

直面技术矛盾

由上下文窗口长度所决定的长文本能力是指，语言模型在进行预测或生成文本时，所考虑的前一个词元（Token）或文本片段的大小范围。

上下文窗口越大，大模型可以获得的语义信息也越丰富，有助于消除歧义、生成更加准确的文本。云从科技技术管理部负责人在接受界面新闻采访时表示，以长上下文为重点突破更加贴近人类记忆的特点，相当于扩展了AI的记忆库，让AI可以参考更多历史记忆信息，给出更准确的输出。

对于多轮对话、长文档处理等场景中，一定长度的上下文窗口是大模型能否高质量完成交流的必要条件。在基础大模型频繁迭代的2023年，长文本能力也一直是主流大模型厂商关注的焦点。

但是上下文窗口、模型智能水平、算力成本之间始终存在着矛盾。

Transformer架构中的注意力机制，需要消耗算力来计算Token与Token之间的相对注意力权重。当上下文窗口显著增大时，模型每次可以处理的文本范围变得更广，但这也意味着每次处理所需的计算资源会大幅增加。因此，尽管每次处理的文本量更大，但由于算力资源限制，模型在整个生命周期内能够处理的总Token数量会减少，导致模型的理解能力下降。

针对这一点，学界自2019年起便开始针对“efficient Transformer”（高效Transformer）为目标进行研究，也出现了诸如稀疏注意力机制等解决方案。核心思路在于通过限制模型必须计算的关系数量，减少计算负担和存储需求，从而提高处理长序列时的效率。

“未来真正要追求无损长文本以及高效推理的话，那改进Transformer架构使其更高效还是很必要的。”波形智能CTO周王春澍表示。

即便是在模型本身的上下文窗口受限的前提下，业内也存在着RAG（Retrieval-Augmented Generation，检索增强生成）等技术路线来实现与超长文本能力类似的效果。即，使用检索系统从一个大型的文档集合中检索出与输入序列相关的文档，然后将这些文档作为上下文信息输入到生成模型中，以辅助生成过程。

在通义千问打出1000万字的长文档处理功能、360预告500万字的长文档处理能力后，一个业内普遍存在的推测就是，这类功能是通过RAG辅助之后，基于基座模型本身的上下文窗口实现的；如果由大模型完成千万汉字长文本的处理，那所耗费的算力资源会相当惊人，不具备商用价值。

共3页:

【2】

【3】