自动驾驶狂飙突进,数据标注需求激增
(资料图片仅供参考)
据不完全统计,2022年1月至10月,国内自动驾驶领域共融资67起,披露融资额累计达143亿元;而从10月到12月,国内智能驾驶相关领域发生融资事件40多起,累计融资超百亿元,自动驾驶“狂飙”之势显著。
这一方面得益于前景的牵引——麦肯锡研究报告指出,2030年中国自动驾驶汽车总销售额将达2300亿美元,基于自动驾驶的出行服务订单金额将达2600亿美元,是全球最大的自动驾驶市场;另一方面也受益于政策的驱动——工信部发文对L3、L4自动驾驶车辆展开试点工作,国家首次发放城市高级辅助驾驶地图许可……
在自动驾驶狂飙突进之际,其背后关键的数据标注需求也在激增。IDC数据显示,2021年我国人工智能数据采集、标注服务市场规模为30亿元左右。未来几年将保持快速增长,增速维持在20%以上,预计2025年市场规模将达到123.4亿元。自动驾驶正是其中需求巨大且增长迅速的一个领域。
自动驾驶行业的数据标注,指的是在采集自动驾驶各场景数据后,通过分类、分割、关键点线标注、画框、追踪等处理方式,对图像、文本、语音、视频、3D点云等原素材中的各类对象进行标记注释,将多源异构的数据转化成可识别的AI训练数据,从而成为机器学习的价值数据。
据英特尔推算,在全自动驾驶时代,每辆汽车每天产生的数据量高达4000GB,但这些数据中可用于训练的价值数据占比不到5%。因此自动驾驶训练需要从海量的数据中“淘”到有用的价值数据。在自动驾驶算法拉不开差距的情况下,越是高级别的自动驾驶,越是依赖数据标注的质量。
数据标注范式生变,AI破局人海战术
数据标注是一个劳动密集型产业,非常依赖人工,拼的是规模和人力成本。为此还兴起了一个名为“数据标注师”的职业,他们每天在各种图片上框选物体,标注名称,做着简单重复的工作。同时,这个产业也像汽车自动驾驶一样不断在进化。
一般认为,智能驾驶/自动驾驶领域的数据标注发展大致经历了三个阶段。2012年前的第一代数据标注以开源的单机标注工具为代表,具备有限场景的标注能力,主要满足10K以下数量级的标注处理;2012年后随着深度学习走热,新兴的数据标注平台具备了多场景数据标注能力,可以满足10K-100K数量级的标注处理;2019年后自动驾驶的火热对数据标注的量级提出更高要求,纯人工模式难以应对100K、1000K甚至更大规模的数据标注,AI开始介入形成人机协同的智能化数据平台。
经过数年的耕耘,在2022年这个自动驾驶商业化进程显著加速的转折之年,国内已经出现一批优质的主打自动化、精细化的数据标注平台,利用AI的无限生产力,代替有限的人工生产力,为自动驾驶数据标注行业降本、提质、增效。
以曼孚科技为例,这家国内最早专注自动驾驶数据标注领域的企业,在2022年7月宣布完成5000万元Pre-B轮融资(近三年累计融资金额数亿元)后,已经进化为一家AI驱动的数据智能平台。其MindFlow SEED 数据服务平台通过AI+RPA驱动自动驾驶数据标注规模化量产,在数据处理(尤其是3D点云数据处理)领域建立起6-12个月的技术壁垒,将综合人效平均提升30%,数据生产成本平均降低40%,突破了产能局限,实现了AI数据规模化量产。
这方面国际标杆是一家名为Scale AI的创业企业。该公司人利用AI训练数据,借助美国大力发展自动驾驶的东风,2022年已成为估值73亿美元的行业独角兽。
受限于美国高昂的人力成本,Scale AI很早就将人工智能应用到自己的数据标注服务中,即先用AI识别一遍,再用人工主要负责校对其中的错误;校对完的数据再度用来训练AI系统,使得下一次标注更精准……如此往复循环,随着训练数据越来越多,做标注的效率也就越来越快,需要人工参与也就越来越少,成本自然也就越来越低。
先进技术需要落地,产品力决定生命力
当然需要指出的是,随着自动驾驶市场提速以及Scale AI凭借AI标注大获成功,国内一些泛数据标注企业也火速搭上自动驾驶和AI自动标注的便车,仿佛一夜之间从过去的人海时代升级到AI时代,但其实这并没有解决根本问题,背后极有可能还是人海战术。
极客智库研究认为,AI在自动驾驶数据标注领域的应用是一个行业+AI的过程,两者融合的成效取决于厂商在自动驾驶数据标注这个行业的专注程度以及Know-how水平。换句话说,那些起步较早且专注于自动驾驶数据标注领域的企业,往往能够将行业知识与AI技术深度磨合,打造出AI人机协同的数据标注产品及智能化数据平台,获得市场的检验和认可。
总之,自动驾驶的星辰大海需要更多价值数据作为“养料”,我们呼唤更多真正的AI标注产品及智能数据平台为此助力,共创共赢美好明天!