昆仑万维天工一刻 | 一文看懂图文多模态大模型

时间：2024-03-26 18:24:11来源：互联网

（原标题：昆仑万维天工一刻 | 一文看懂图文多模态大模型）

▲头图由昆仑万维天工大模型生成▲

随着大模型技术迎来颠覆性突破，新兴AI应用大量涌现，不断重塑着人类、机器与智能的关系。

为此，昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中，我们将对大模型产业热点、技术创新、应用案例进行深度解读，同时邀请学术专家、行业领袖分享优秀的大模型行业趋势、技术进展，以飨读者。

当前，大模型领域最火的研究方向之一，当属多模态大模型。

自大模型技术兴起以来，海量AI辅助创作的文案、图像、视频却如雨后春笋般涌现；其中最成熟的，正是图文多模态大模型。

自2023年初开始，微软KOSMOS-1、谷歌PaLM-E、OpenAI GPT-4/4V、Mate ImageBind、开源项目MiniGPT-4、开源项目LLaVA……还有Flamingo系列、CLIP系列、BLIP系列、DALL·E系列、Stable Diffusion系列等一大批技术创新涌现，产业风起云涌，好不热闹。

AI画画、AI证件照、AI解释“表情包”、AI发票识别……这些令人惊叹的新兴AI应用背后，都离不开多模态技术的“加持”。可以说，看懂了多模态大模型，才能真正了解大模型的未来。

2023年8月，昆仑万维推出国内第一款AI搜索引擎，成为中国AI搜索鼻祖。当前，基于自研“天工”系列基座大模型，昆仑万维已构建起AI大模型、AI搜索、AI音乐、AI Story、AI游戏等AI业务矩阵。

在天工AI智能助手APP中，用户也可以通过AI画画、AI识图等功能，体验到天工大模型强大的多模态AI功能。

本文将从以下方向介绍多模态技术：

1、什么是图文多模态大模型？

2、图文多模态大模型的三大研究方向

3、图文多模态大模型的主流技术方向

4、前沿创新与天工自研Mental Notes技术

早在2023年9月初，昆仑万维天工大模型团队就推出了自研多模态大模型Skywork-MM v1。

Skywork-MM由一个视觉编码器、一个可学习采样器模块和一个经LoRA调优后的大语言模型组成。

针对目前困扰多模态大模型领域的众多挑战，昆仑万维团队从特定SFT数据集训练、知识定义与诱导、模型结构、训练方式等领域进行创新，并推出自研Mental Notes技术，模拟人类认知过程，显著降低了多模态大模型“幻觉”问题，增强了中文的指令追随能力、中文相关场景的识别能力，降低了文化偏见对于多模态理解造成的限制。

同时，昆仑万维天工大模型团队还公开了名为《Empirical Study Towards Building An Effective Multi-Modal Large Language Model》的技术论文。

▲昆仑万维天工多模态大模型团队论文截图▲

01 当我们谈论多模态时，我们在谈论什么

模态（Modal）在计算机用语中，可以理解为计算机和人之间的单一独立感官输入与输出通道的分类——如文字、图像、声音。

与多模态相对应的是单模态，即单一交互种类。举例而言，ChatGPT就是一种典型的单模态产品，在2022年11月发布之初，它只能用文字与用户进行交流，而GPT-4V则能同时处理文字和图像信息。

对于人类来说，多模态是一种极其自然的交互方式。看一段带字幕的视频、欣赏一朵颜色娇艳的鲜花，我们的眼睛、耳朵、鼻子能同时接收到来自外界的信号，并由大脑统一调控处理。

但对于计算机而言，这种多模态交互却极其不自然。

在计算机领域，一直以来，各类模态的研究都在“单兵作战”。

做图像的专注做图像，做文本的做文本，偶尔有人想做个模态融合，却往往苦于技术局限，难以打破模态壁垒。

比如，上一轮席卷全球的人工智能热潮正是在图像领域（CV，计算机视觉Computer Vision）。

彼时，由于CNN（卷积神经网络）技术取得突破，带动了人脸识别、图像识别、视频检测等一大批图像领域的创新突破，准确率迅速超越人类，达到商用标准。

不幸的是，这项技术在文本理解上的效果相当一般。当时一个AI程序能够在人脸识别的精准度上达到99.99%，却在人类语言理解上不如一个幼儿园的小朋友。