融易新媒体
快捷导航 融易新媒体
主页 > 财经 > 股市 >

颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

时间:2024-04-26 02:47:34来源:中国网科技

  近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。 

  这是一款重磅的通用视觉多模态大模型,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,提供了一个完整统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。 

  Vitron作为一个统一的像素级视觉多模态大语言模型,实现了从低层次到高层次的视觉任务的完整支持,能够处理复杂的视觉任务,并理解和生成图像和视频内容,提供了强大的视觉理解和任务执行能力。同时,Vitron支持与用户的连续操作,实现了灵活的人机互动,展示了通向更统一的视觉多模态通用模型的巨大潜力。 

  Vitron相关的论文、代码和Demo已全部公开,其在综合性、技术创新、人机交互和应用潜力等方面展现出的独特优势和潜力,不仅推动了多模态大模型的发展,还为未来的视觉大模型研究提供了一个新的方向。 

  一直以来,昆仑万维2050全球研究院都致力于打造一家面向未来世界的卓越科学研究机构,与科学社区共同跨越“奇点”,探索未知世界,创造美好未来。此前,昆仑万维2050全球研究院已经发布并开源了数字智能体研发工具包AgentStudio,未来,研究院还将不断推动人工智能技术突破,为中国人工智能生态建设贡献力量。 

  当前视觉大语言模型(LLMs)的发展取得了喜人进展。社区越来越相信,构建更通用、更强大的多模态大模型(MLLMs)将会是通向通用人工智能(AGI)的必经之路。但在向多模态通用大模型(Generalist)的迈进过程中,目前仍存在一些关键挑战。比如很大一部分工作都没有实现细粒度像素级别的视觉理解,或者缺乏对图像和视频的统一支持。抑或对于各种视觉任务的支持不充分,离通用大模型相差甚远。 

  为了填补这个空白,近日,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布开源了Vitron通用像素级视觉多模态大语言模型。Vitron支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行完整的理解、生成、分割和编辑等任务。

  

  上图综合描绘了Vitron在四大视觉相关任务的功能支持,以及其关键优势。Vitron还支持与用户的连续操作,实现灵活的人机互动。该项目展示了面向更统一的视觉多模态通用模型的巨大潜力,为下一代通用视觉大模型的终极形态奠定了基础。 

  Vitron相关论文、代码、Demo目前已全部公开。

  

  01. 大一统的终极多模态大语言模型 

  近年来,大语言模型(LLMs)展现出了前所未有的强大能力,其遭逐渐验证为乃是通向AGI的技术路线。而多模态大语言模型(MLLMs)在多个社区火爆发展且迅速出圈,通过引入能进行视觉感知的模块,扩展纯语言基础LLMs至MLLMs,众多在图像理解方面强大卓越的MLLMs遭研发问世,例如BLIP-2、LLaVA、MiniGPT-4等等。与此同时,专注于视频理解的MLLMs也陆续面世,如VideoChat、Video-LLaMA和Video-LLaVA等等。 

  随后,研究人员主要从两个维度试图进一步扩展MLLMs的能力。一方面,研究人员尝试深化MLLMs对视觉的理解,从粗略的实例级理解过渡到对图像的像素级细粒度理解,从而实现视觉区域定位(Regional Grounding)能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。另一方面,研究人员尝试扩展MLLMs可以支持的视觉功能。部分研究已经开始研究让MLLMs不仅理解输入视觉信号,还能支持生成输出视觉内容。比如,GILL、Emu等MLLMs能够灵活生成图像内容,以及GPT4Video和NExT-GPT实现视频生成。 

  目前人工智能社区已逐渐达成一致,认为视觉MLLMs的未来趋势必然会朝着高度统一、能力更强的方向发展。然而,尽管社区开发了众多的MLLMs,但仍然存在明显的鸿沟。 

  首先,几乎所有现有的视觉LLMs将图像和视频视为不同的实体,要么仅支持图像,要么仅支持视频。研究人员主张,视觉应该同时包含了静态图像和动态视频两个方面的内涵——这两者都是视觉世界的核心组成,在大多数场景中甚至可以互换。所以,需要构建一个统一的MLLM框架能够同时支持图像和视频模态。 


近期热点

国联证券筹划重大资产重组,与民生证券的整合取得重要进展 04-26

颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定 04-26

杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创 04-26

三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享” 04-26

好未来发布2024Q4及全年财报:全年净收入14.9亿美元 04-26

热门文章
热点 热点追踪 网站首页 热点 观点