颜水成挂帅，昆仑万维2050全球研究院联合NUS、NTU发布Vitron，奠定通用视觉多模态大模型终极形态(3)

时间：2024-04-26 02:47:34来源：中国网科技

　　研究人员基于Vitron在22个常见的基准数据集、12个图像/视频视觉任务上进行了广泛的实验评估。Vitron展现出在四大主要视觉任务群组(分割、理解、内容生成和编辑)中的强大能力，与此同时其具备灵活的人机交互能力。以下代表性地展示了一些定性比较结果：

　　Vision Segmentation

　　Results of image referring image segmentation

　　Fine-grained Vision Understanding

　　Results of image referring expression comprehension.

　　Results on video QA.

　　Vision Generation

　　Vision Editing

　　Image editing results

　　究竟更多详细实验内容和细节请移步论文。

　　05. 未来方向展望

　　总体上，这项工作展示了研发大一统的视觉多模态通用大模型的巨大潜力，为下一代视觉大模型的研究奠定了一个新的形态，迈出了这个方向的第一步。尽管团队所提出的Vitron系统表现出强大的通用能力，但依然存在自身的局限性。以下研究人员列出一些未来可进一步探索的方向。

　　系统架构

　　Vitron系统仍采用半联合、半代理的方式来调用外部工具。虽然这种基于调用的方法便于扩展和替换潜在模块，但这也意味着这种流水线结构的后端模块不参与到前端与LLM核心模块的联合学习。这一限制不利于系统的整体学习，这意味着不同视觉任务的性能上限将受到后端模块的限制。未来的工作应将各种视觉任务模块整合成一个统一的单元。实现对图像和视频的统一理解和输出，同时通过单一生成范式支持生成和编辑能力，仍然是一个挑战。目前一种有希望的方式是结合modality-persistent的tokenization, 提升系统在不同输入和输出以及各种任务上的统一化。

　　用户交互性

　　与之前专注于单一视觉任务的模型(例如，Stable Diffusion和SEEM)不同，Vitron旨在促进LLM和用户之间的深度交互，类似于行业内的OpenAI的DALL-E系列，Midjourney等。实现最佳的用户交互性是本项工作的核心目标之一。Vitron利用现有的基于语言的LLM，结合适当的指令调整，以实现一定程度的交互。例如，系统可以灵活地响应用户输入的任何预期消息，产生相应的视觉操作结果，而不要求用户输入精确匹配后端模块条件。然而，该工作在增强交互性方面仍有很大的提升空间。例如，从闭源的Midjourney系统汲取灵感，不论LLM在每一步做出何种决定，系统都应积极向用户提供反馈，以确保其行动和决策与用户意图一致。

　　模态能力

　　当前，Vitron集成了一个7B的Vicuna模型，其可能对其理解语言、图像和视频的能力会产生某些限制。未来的探索方向可以发展一个完整的端到端系统，比如扩大模型的规模，以实现对视觉的更彻底和完整的理解。此外，应该努力使LLM能够完全统一图像和视频模态的理解。

共3页:

【2】

【3】