时间:2023-07-10 08:37:01来源:新媒体
(图片来历:图虫创意)
“大模子建树中,语料库是一个很是重要的偏向。”7月8日,上海数交所总司理汤奇峰在“大模子时代下的数据要素畅通”主题论坛中如是暗示。他认为,大模子时代下的语料库建树存在语料库供应不敷、语料库质量不高、语料库多样性匮乏、语料库尺度欠缺等问题。
“语料库建树不是单一企业的责任,需要多方配合推进,假如每个企业都单独建树维护语料库,会拉低效率,也会增加企业本钱,数交所但愿通过增强数据要素建树晋升语料库建树效率。”汤奇峰暗示。
蓝鲸财经相识到,上海数交所官网已于7月7日正式上线语料库,累计挂牌近30个语料数据产物,包括文本、音频、图像等多模态,包围金融、交通运输和医疗等规模。
关于语料库建树的挑战,汤奇峰认为主要会合于开放水和善数据质量两方面:“可否有大模子企业所需的高质量语料?方针工具愿不肯意开放数据?”由此,汤奇峰指出可以按照开放水平强弱和数据质量坎坷将语料数据生态机构分出四类供方。
上海数据生意业务所语料库为这四类供方拟定差别化事情计策。汤奇峰发起可以从当局引导市场主导、富厚种类提高质量、统一尺度类型建树、增强禁锢保障安详、增强禁锢保障安详四个偏向建树大模子时代下的语料库。
汤奇峰指出,针对数据质量高但开放水平低的供方,可以通过数据生意业务链有效破解语料数据畅通的信任问题,“焦点之一在于产权和参加大模子后的收益分派问题。”
另外,上海数据生意业务所语料库亦将提供特色标签处事体系、挖掘应用场景代价、驱动稀缺数据开放畅通以提高该类供方开放数据努力性。针对开放水平高但数据质量低的机构,上海数交所语料库则通过搭建专业化数商处事渠道提高数据质量。
汤奇峰先容道,上海数交地址建树语料库时思量的两个维度与数交所对企业数据成长历程四个阶段的调查密切相关。对付这四个阶段,融易新媒体,汤奇峰表明,第一个阶段是企业数据自产自用阶段。跟着企业数据的内部供应有限时,企业数据需求慢慢转向外部,进入到第二阶段,在该阶段,大平台和大企业通过成本纽带在体系内部形成数据畅通。到了第三个阶段,企业累积的数据将开放给整个行业,财富内形成尺度。第四个阶段,数据利用在资产化进程中会发生新的更高阶业态。
“语料库采购已经在不少大模子企业本钱中占据重要比重,上海数交所但愿以市场设置的方法组织数据要素敦促语料库建树。”汤奇峰暗示。
据悉,为更好打造高质量语料库、环绕语料数据共建数商生态,上海数交所牵头提倡语料数据生态创新相助同伴打算,联袂首批相助同伴上海人工智能尝试室、商汤科技、中国知网、澜舟科技、OpenKG、拓尔思、新致和蜜度正式启动该打算,努力引导差异行业、差异规模、具有必然局限的高质量语料数据产物挂牌生意业务,敦促人工智能大模子技能创新与应用落地,进一步富厚语料库多样性,助力数据要素市场建树。