时间:2025-01-04 14:20:01来源:中国证券报
不同于大语言模型可以使用互联网海量信息作为训练数据,机器人所用的具身智能模型没有现成数据可以使用,需要投入大量时间和资源进行机器人操作实践或仿真模拟,以收集视觉、触觉、力觉、运动轨迹以及机器人本体状态等多源异构数据。符合通用标准、得到验证的数据集成为具身智能行业的刚需。
“人形机器人发展需要大规模的数据集,开源开放是构建数据集的最好方式之一。”江磊表示,在开放原子开源基金会的支持下,国家地方共建人形机器人创新中心建立了国内首个人形机器人开源社区OepnLoong,致力于打造属于通用人形机器人的开源开放生态。此外,其所在中心还组建了“白虎”开源数据联盟,计划在三年内完成超过1PB的数据集建设。
12月27日,国家地方共建具身智能机器人创新中心与北京大学计算机学院联合推出大规模多构型具身智能数据集,有效满足复杂场景具身智能高效率和针对性的训练。
12月30日,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,发布百万真机数据集——AgiBot World。据介绍,相比Google开源的Open X-Embodiment数据集,AgiBot World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。
针对数据集采集标准不一、质量参差不齐、通用性复用性差等问题,今年11月,国家地方共建具身智能机器人创新中心牵头立项《人工智能 具身智能 数据采集规范》行业标准,规范具身智能数据集采集格式,使不同公司采集的数据可以共享开源。