融易新媒体
快捷导航 融易新媒体
主页 > 财经 > 股市 >

颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态(3)

时间:2024-04-26 02:47:34来源:中国网科技

  研究人员基于Vitron在22个常见的基准数据集、12个图像/视频视觉任务上进行了广泛的实验评估。Vitron展现出在四大主要视觉任务群组(分割、理解、内容生成和编辑)中的强大能力,与此同时其具备灵活的人机交互能力。以下代表性地展示了一些定性比较结果: 

  Vision Segmentation

  

  Results of image referring image segmentation 

  Fine-grained Vision Understanding

  

  Results of image referring expression comprehension.

  

  Results on video QA. 

  Vision Generation

  

  Vision Editing

  

  Image editing results 

  究竟更多详细实验内容和细节请移步论文。 

  05. 未来方向展望 

  总体上,这项工作展示了研发大一统的视觉多模态通用大模型的巨大潜力,为下一代视觉大模型的研究奠定了一个新的形态,迈出了这个方向的第一步。尽管团队所提出的Vitron系统表现出强大的通用能力,但依然存在自身的局限性。以下研究人员列出一些未来可进一步探索的方向。 

  系统架构 

  Vitron系统仍采用半联合、半代理的方式来调用外部工具。虽然这种基于调用的方法便于扩展和替换潜在模块,但这也意味着这种流水线结构的后端模块不参与到前端与LLM核心模块的联合学习。这一限制不利于系统的整体学习,这意味着不同视觉任务的性能上限将受到后端模块的限制。未来的工作应将各种视觉任务模块整合成一个统一的单元。实现对图像和视频的统一理解和输出,同时通过单一生成范式支持生成和编辑能力,仍然是一个挑战。目前一种有希望的方式是结合modality-persistent的tokenization, 提升系统在不同输入和输出以及各种任务上的统一化。 

  用户交互性 

  与之前专注于单一视觉任务的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促进LLM和用户之间的深度交互,类似于行业内的OpenAI的DALL-E系列,Midjourney等。实现最佳的用户交互性是本项工作的核心目标之一。Vitron利用现有的基于语言的LLM,结合适当的指令调整,以实现一定程度的交互。例如,系统可以灵活地响应用户输入的任何预期消息,产生相应的视觉操作结果,而不要求用户输入精确匹配后端模块条件。然而,该工作在增强交互性方面仍有很大的提升空间。例如,从闭源的Midjourney系统汲取灵感,不论LLM在每一步做出何种决定,系统都应积极向用户提供反馈,以确保其行动和决策与用户意图一致。 

  模态能力 

  当前,Vitron集成了一个7B的Vicuna模型,其可能对其理解语言、图像和视频的能力会产生某些限制。未来的探索方向可以发展一个完整的端到端系统,比如扩大模型的规模,以实现对视觉的更彻底和完整的理解。此外,应该努力使LLM能够完全统一图像和视频模态的理解。 


近期热点

国联证券筹划重大资产重组,与民生证券的整合取得重要进展 04-26

颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定 04-26

杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创 04-26

三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享” 04-26

好未来发布2024Q4及全年财报:全年净收入14.9亿美元 04-26

热门文章
热点 热点追踪 网站首页 热点 观点