时间:2024-03-26 18:24:11来源:互联网
▲头图由昆仑万维天工大模型生成▲
随着大模型技术迎来颠覆性突破,新兴AI应用大量涌现,不断重塑着人类、机器与智能的关系。
为此,昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中,我们将对大模型产业热点、技术创新、应用案例进行深度解读,同时邀请学术专家、行业领袖分享优秀的大模型行业趋势、技术进展,以飨读者。
当前,大模型领域最火的研究方向之一,当属多模态大模型。
自大模型技术兴起以来,海量AI辅助创作的文案、图像、视频却如雨后春笋般涌现;其中最成熟的,正是图文多模态大模型。
自2023年初开始,微软KOSMOS-1、谷歌PaLM-E、OpenAI GPT-4/4V、Mate ImageBind、开源项目MiniGPT-4、开源项目LLaVA……还有Flamingo系列、CLIP系列、BLIP系列、DALL·E系列、Stable Diffusion系列等一大批技术创新涌现,产业风起云涌,好不热闹。
AI画画、AI证件照、AI解释“表情包”、AI发票识别……这些令人惊叹的新兴AI应用背后,都离不开多模态技术的“加持”。可以说,看懂了多模态大模型,才能真正了解大模型的未来。
2023年8月,昆仑万维推出国内第一款AI搜索引擎,成为中国AI搜索鼻祖。当前,基于自研“天工”系列基座大模型,昆仑万维已构建起AI大模型、AI搜索、AI音乐、AI Story、AI游戏等AI业务矩阵。
在天工AI智能助手APP中,用户也可以通过AI画画、AI识图等功能,体验到天工大模型强大的多模态AI功能。
本文将从以下方向介绍多模态技术:
1、什么是图文多模态大模型?
2、图文多模态大模型的三大研究方向
3、图文多模态大模型的主流技术方向
4、前沿创新与天工自研Mental Notes技术
早在2023年9月初,昆仑万维天工大模型团队就推出了自研多模态大模型Skywork-MM v1。
Skywork-MM由一个视觉编码器、一个可学习采样器模块和一个经LoRA调优后的大语言模型组成。
针对目前困扰多模态大模型领域的众多挑战,昆仑万维团队从特定SFT数据集训练、知识定义与诱导、模型结构、训练方式等领域进行创新,并推出自研Mental Notes技术,模拟人类认知过程,显著降低了多模态大模型“幻觉”问题,增强了中文的指令追随能力、中文相关场景的识别能力,降低了文化偏见对于多模态理解造成的限制。
同时,昆仑万维天工大模型团队还公开了名为《Empirical Study Towards Building An Effective Multi-Modal Large Language Model》的技术论文。
▲昆仑万维天工多模态大模型团队论文截图▲
01 当我们谈论多模态时,我们在谈论什么
模态(Modal)在计算机用语中,可以理解为计算机和人之间的单一独立感官输入与输出通道的分类——如文字、图像、声音。
与多模态相对应的是单模态,即单一交互种类。举例而言,ChatGPT就是一种典型的单模态产品,在2022年11月发布之初,它只能用文字与用户进行交流,而GPT-4V则能同时处理文字和图像信息。
对于人类来说,多模态是一种极其自然的交互方式。看一段带字幕的视频、欣赏一朵颜色娇艳的鲜花,我们的眼睛、耳朵、鼻子能同时接收到来自外界的信号,并由大脑统一调控处理。
但对于计算机而言,这种多模态交互却极其不自然。
在计算机领域,一直以来,各类模态的研究都在“单兵作战”。
做图像的专注做图像,做文本的做文本,偶尔有人想做个模态融合,却往往苦于技术局限,难以打破模态壁垒。
比如,上一轮席卷全球的人工智能热潮正是在图像领域(CV,计算机视觉Computer Vision)。
彼时,由于CNN(卷积神经网络)技术取得突破,带动了人脸识别、图像识别、视频检测等一大批图像领域的创新突破,准确率迅速超越人类,达到商用标准。
不幸的是,这项技术在文本理解上的效果相当一般。当时一个AI程序能够在人脸识别的精准度上达到99.99%,却在人类语言理解上不如一个幼儿园的小朋友。
而本轮人工智能热潮则发源于文本领域(NLP,自然语言理解Natural Language Processing)。
2018年,预训练Transformer模型横空出世,在文本领域掀起革命,一夜之间,以GPT为代表的大语言模型(LLM, Large Language Model)席卷全球,大模型火爆全网。
此时,有趣的事情发生了。
但当研究人员将Transformer结构试图用于图像领域,设计出ViT(Vision Transformer)结构时,竟在图像领域取得了极其惊人的良好效果。
ViT将图像划分为固定像素大小的正方形的单元作为token,通过分单元处理与线性映射,使得每个像素方块成为了基于单词设计的Transformer结构可接受的输入,一举打破了CV和NLP之间的壁垒。
2020年10月22日,《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》论文发布。自此,一扇新世界的大门打开了。
02 图文多模态技术三大研究方向
从流程来看,图文多模态大模型可以大致划分为输入、输出两个步骤;从技术上则可以分为:
? 专注输入的多模态理解模型Understanding Models
? 专注输出的多模态生成模型Generation Models
? 统一理解与生成的通用模型General-Purpose Models
其中,理解模型是当前学术与产业界的研究重点。