时间:2023-02-24 17:58:01来源:生活在线
近日,由极客网发起评选的《2023自动驾驶数据标注公司排行》榜单正式揭晓,10家自动驾驶数据标注公司荣登榜单:
一、自动驾驶狂飙突进,数据标注需求激增
据不完全统计,2022年1月至10月,国内自动驾驶领域共融资67起,披露融资额累计达143亿元;而从10月到12月,国内智能驾驶相关领域发生融资事件40多起,累计融资超百亿元,自动驾驶“狂飙”之势显著。
这一方面得益于前景的牵引——麦肯锡研究报告指出,2030年中国自动驾驶汽车总销售额将达2300亿美元,基于自动驾驶的出行服务订单金额将达2600亿美元,是全球最大的自动驾驶市场;另一方面也受益于政策的驱动——工信部发文对L3、L4自动驾驶车辆展开试点工作,国家首次发放城市高级辅助驾驶地图许可……
在自动驾驶狂飙突进之际,其背后关键的数据标注需求也在激增。IDC数据显示,2021年我国人工智能数据采集、标注服务市场规模为30亿元左右。未来几年将保持快速增长,增速维持在20%以上,预计2025年市场规模将达到123.4亿元。自动驾驶正是其中需求巨大且增长迅速的一个领域。
自动驾驶行业的数据标注,指的是在采集自动驾驶各场景数据后,通过分类、分割、关键点线标注、画框、追踪等处理方式,对图像、文本、语音、视频、3D点云等原素材中的各类对象进行标记注释,将多源异构的数据转化成可识别的AI训练数据,从而成为机器学习的价值数据。
据英特尔推算,在全自动驾驶时代,每辆汽车每天产生的数据量高达4000GB,但这些数据中可用于训练的价值数据占比不到5%。因此自动驾驶训练需要从海量的数据中“淘”到有用的价值数据。在自动驾驶算法拉不开差距的情况下,越是高级别的自动驾驶,越是依赖数据标注的质量。
二、数据标注范式生变,AI破局人海战术
数据标注是一个劳动密集型产业,非常依赖人工,拼的是规模和人力成本。为此还兴起了一个名为“数据标注师”的职业,他们每天在各种图片上框选物体,标注名称,做着简单重复的工作。同时,这个产业也像汽车自动驾驶一样不断在进化。
一般认为,智能驾驶/自动驾驶领域的数据标注发展大致经历了三个阶段。2012年前的第一代数据标注以开源的单机标注工具为代表,具备有限场景的标注能力,主要满足10K以下数量级的标注处理;2012年后随着深度学习走热,新兴的数据标注平台具备了多场景数据标注能力,可以满足10K-100K数量级的标注处理;2019年后自动驾驶的火热对数据标注的量级提出更高要求,纯人工模式难以应对100K、1000K甚至更大规模的数据标注,AI开始介入形成人机协同的智能化数据平台。
经过数年的耕耘,在2022年这个自动驾驶商业化进程显著加速的转折之年,国内已经出现一批优质的主打自动化、精细化的数据标注平台,利用AI的无限生产力,代替有限的人工生产力,为自动驾驶数据标注行业降本、提质、增效。
以曼孚科技为例,这家国内最早专注自动驾驶数据标注领域的企业,在2022年7月宣布完成5000万元Pre-B轮融资(近三年累计融资金额数亿元)后,已经进化为一家AI驱动的数据智能平台。其MindFlow SEED数据服务平台通过AI+RPA驱动自动驾驶数据标注规模化量产,在数据处理(尤其是3D点云数据处理)领域建立起6-12个月的技术壁垒,将综合人效平均提升30%,数据生产成本平均降低40%,突破了产能局限,实现了AI数据规模化量产。
这方面国际标杆是一家名为Scale AI的创业企业。该公司人利用AI训练数据,借助美国大力发展自动驾驶的东风,2022年已成为估值73亿美元的行业独角兽。
受限于美国高昂的人力成本,Scale AI很早就将人工智能应用到自己的数据标注服务中,即先用AI识别一遍,再用人工主要负责校对其中的错误;校对完的数据再度用来训练AI系统,使得下一次标注更精准……如此往复循环,随着训练数据越来越多,做标注的效率也就越来越快,需要人工参与也就越来越少,成本自然也就越来越低。
三、先进技术需要落地,产品力决定生命力
当然需要指出的是,随着自动驾驶市场提速以及Scale AI凭借AI标注大获成功,国内一些泛数据标注企业也火速搭上自动驾驶和AI自动标注的便车,仿佛一夜之间从过去的人海时代升级到AI时代,但其实这并没有解决根本问题,背后极有可能还是人海战术。