昆仑万维天工一刻 | 一文看懂图文多模态大模型(2)

时间：2024-03-26 18:24:11来源：互联网

在理解模型领域，虽然基于Transformer理念设计的ViT模型面世之后，该研究方向取得了显著突破，但目前学术与产业界尚存争论，各类新兴技术路径依旧是百花齐放，如CLIP、LLaVA、MiniGPT-4等。

而在生成模型领域，自从Diffusion Model（扩散模型）横空出世，霸榜全球后，生成侧模型几乎已遭Diffusion“一统天下”。目前大量AI作画、AI写真等都是Diffusion系列的产品，只是在大方向上各细分路径有所不同。

此外，统一理解与生成侧的通用基础模型也是当前多模态领域的研究热点，基于BLIP系列技术的多模态创新在多项应用上都取得了良好效果。

03 主流技术方向

当前，在最为广泛应用的视觉+文本多模态大模型领域，研究效果最好的主流方案之一是基于预训练的图像编码器与大语言模型，以图文特征对齐模块进行跨模态的信息链接，从而让擅长NLP技术的语言模型能够理解图像特征，并进行更深层的问答推理。

这样可以利用已有的大量单模态训练数据训练得到的单模态模型，减少对于高质量图文对数据的依赖，并通过特征对齐、指令微调等方式打通两个模态的表征。

▲昆仑万维多模态大模型Skywork-MM架构▲

Skywork-MM将视觉模型/图像编码器和大语言模型完全冻结，保持视觉模型在前置CLIP训练中学习到的视觉特征不损失，大语言模型的语言能力不损失。

同时，融易新媒体消息，为了更好的关联视觉特征和语言特征，模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。

Skywork-MM模型训练分为两个阶段：

第一阶段，使用双语的大规模图像-文本配对数据进行图像概念和语言概念的关联学习；

第二阶段，使用多模态微调数据进行指令微调。

04 学术前沿

尽管在跨模态能力泛化上效果优秀，但当前的多模态大模型——尤其是中文多模态领域——依旧存在着不少挑战：

1、幻觉问题

大模型的幻觉问题指的是模型生成的文本或回复与原文产生信息冲突（Faithfulness）或者不符合基础事实（Factualness）。这是一个普遍存在于众多大模型产品中的问题，尤其是在多模态技术领域。

昆仑万维天工团队观察到，当前的多模态大模型不仅普遍存在“幻觉”问题，而且用户在向大模型询问输入图像中的不可见对象或事实冲突的相关问题时，现有大模型更倾向于给出“是”或产生“幻觉”。

2、中文/英语-双语大模型的挑战

数据方面，多模态训练数据本就极其稀缺，收集图像数据的成本通常比收集文本数据的成本高得多。因此，视觉数据的规模通常比文本语料库的规模小得多。并且，在图像与视觉领域，数据的颗粒度和语义丰富度都不尽相同，大到整个图像、区域（框标准），小到掩码（像素标注）。其中，能够进行高质量图像-文本配对的中文数据更是少之又少。

而在模型方面，昆仑万维天工团队同样观察到，基于Chinese-LLaVA或ImageBind-LLM等海外双语多模态大模型构建中文多模态大模型效果很差，其不仅在回答汉语问题时会存在文化偏见，在不少大模型中，即使用中文指令数据进行微调，也无法识别具有典型中文特征的项目。

针对多模态大模型所面临的众多挑战，昆仑万维团队从特定SFT数据集训练、知识定义与诱导、模型结构、训练方式等领域进行创新，并推出自研Mental Notes技术，模拟人类认知过程，显著降低了Skywork-MM的“幻觉”问题，增强了中文的指令追随能力、中文相关场景的识别能力，降低了文化偏见对于多模态理解造成的限制。

昆仑万维天工团队自研的Mental Notes技术通过训练大模型在回答问题之前提供图像的详细描述，这一过程与人类提前准备引导笔记以回答问题时的认知过程类似。通过引入Mental Notes技术，系统显著提高了多模态大模型在图像-文本任务上的效果，在众多相关任务中表现优秀。

此外，与其他多模态大模型相比，Skywork-MM更是在数据使用效率上效果惊人，其图像-文本对训练数据少于50M，其多模态性能显著超过其他同类100M大模型。

共3页:

【2】

【3】