时间:2024-04-22 15:50:02来源:新媒体
2024年4月17日,在「天工」大模型一周年之际,昆仑万维重磅宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天,第一版天工大模型正式对外发布上线,一年来我们不断迭代模型,迭代应用产品,模型和应用都越做越好,以此回报广大用户的支持。
「天工3.0」拥有4000亿参数,超越了3140亿参数的Grok-1,是全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不落实性知识、学习能力等领域拥有突破性的性能提升,数学/推理/代码/文创能力提升超过30%。
(天工3.0模型参数超越Grok-1,成全球最大开源MoE专家混合大模型)
强大的模型技术实力赋予「天工3.0」超强的性能表现。在MMBench等多项权威多模态测评结果中,「天工3.0」超越GPT-4V,全球领先。
(天工3.0多模态性能超越GPT-4V,全球领先)
同时,「天工3.0」旗下的「天工SkyMusic」音乐大模型也在今日面向全社会开放公测。「天工SkyMusic」是中国首个音乐SOTA模型,更是中国的自研大模型技术第一次在AIGC领域领跑全球。
(天工SkyMusic综合性能超越Suno V3,取得音乐大模型SOTA,领跑全球)
天工SkyMusic:中国首个音乐AIGC SOTA模型
此前,大模型已经在文本、图像等多个技术领域取得突破,带来产业完整变革。然而,在AI音乐生成领域,全球迟迟等不到一款产品,开启「音乐ChatGPT时刻」。
这是因为一直以来,AI音乐行业大量研究都集中在符号音乐生成技术路线上,并且大多只能实现无人声背景音乐(Background Music,BGM)的生成,音乐的质量、效果、审美都远远达不到可用水平,产业迟迟未能爆发。
(「天工SkyMusic」自研AI音乐大模型技术架构)
与行业主流路径不同,「天工SkyMusic」采用自研大模型音乐音频生成技术路线。这一路线直接通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,技术难度极大,全球只有包括昆仑万维在内的极少数顶尖玩家参与。
在与海外顶尖的AI音乐大模型Suno V3的横向测评中,「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型。
此外,「天工SkyMusic」还拥有独创的参考音乐生成与方言歌曲生成能力。
参考音乐生成:用户可上传自有参考音乐,或选择「天工SkyMusic」资料库中现有的参考音乐,从而生成风格、唱腔类似的歌曲,进一步降低音乐大模型的使用门槛,融易新媒体消息,让不熟悉乐理知识的用户也能轻松玩转。
方言歌曲生成:「天工SkyMusic」生成的音乐不仅在人声自然度、发声可懂度等领域表现优秀,更能够支持粤语、成都话、北京话等众多方言,让用户能够更自由地实现音乐表达,传播方言文化。
「天工SkyMusic」是中国首个公开可用的AI音乐生成模型,更是中国自研大模型技术第一次在AIGC领域领跑全球。
当前,在文本大模型领域,OpenAI吸引了全球的注意力;但是在AI搜索、AI音乐生成等细分领域,中国玩家们正在奋勇前行,不断通过自研技术取得细分领域顶尖的SOTA表现,共同建设中国大模型产业,打造自主可控的大模型产业生态。
天工3.0:4000亿参数,全球最大开源MoE大模型
在上一代「天工2.0」MoE大模型的领先基础上,「天工3.0」实现了完整的性能升级,采用了4000亿级参数MoE混合专家模型架构,是目前全球模型参数最大、性能最强的开源MoE模型。
「天工3.0」的逻辑推理能力、语义理解能力、应对复杂需求能力、内容创作能力完整升级,并新增了多轮搜索与综合工具调用、图表绘制、研究模式、增强模式、改图扩图等多项AI能力,为用户带来全新AI体验。
多轮搜索与综合工具调用:「天工3.0」针对模型独立规划、调用、组合外部工具及整合信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。