自动驾驶自动化标注让技术接管了人工?

[首发于智驾最前沿微信公众号]做自动驾驶的人都知道数据标注有多烧钱。

一辆测试车每天跑下来,产生的数据量动辄TB级别,但这些数据中,真正有价值的可能连5%都不到。为了把这5%的价值挖出来,企业需要雇佣成百上千名标注员,一帧一帧地在图片上画框、在点云里标目标。一位成熟的标注师一小时大概能完成240件数据,而一家自动驾驶企业训练一个L4级感知模型,需要的标注数据量超过2000万帧3D点云数据,精度要求还得到厘米级。

在这个需求下,标注成本就可以很直接的计算出来,在传统模式下,标注一帧数据的成本大约17元,完成50万帧标注就要花850万元,需要100个人连续干4年半。更麻烦的是,不同标注员对同一场景的理解不一样,比如车辆被遮挡到什么程度才算遮挡,光这一个判定标准,差异就能达到37%。这种不一致性将直接带偏模型训练,导致感知系统在实际道路上的表现忽好忽坏。

用人堆出来的标注,规模是有了,但精度和一致性很难保证,这个问题,在自动驾驶从辅助驾驶向高阶自动驾驶演进的过程中变得尤为突出,行业迫切需要找到一条新路,自动化标注技术应运而生。

wKgZO2o52jCAS-MCAAAQo00DEvw572.jpg

AI给自己做老师?

自动化标注技术探索其实很早就开始了,当时的的想法很简单,既然AI最终要识别这些目标,能不能先让它自己试着标一遍,然后人工来修正?而这就是预标注的基本思路。即先训练一个模型,让它对未标注的数据做初步识别,生成一套初始标注结果,人工只需要在此基础上进行调整和确认。这样一来,标注员的角色从从头画框变成了审核修正,效率自然上去了。

图片源自:网络

这个想法虽然很好,但在实际操作时却遇到了不少麻烦,自动驾驶的传感器数据是多模态的,摄像头拍的是2D图像,激光雷达打出的是3D点云,毫米波雷达提供的是测距信息。如果只是单独标图像或者单独标点云,两类数据之间很难对齐,一辆车在图像里是一个矩形,在点云里是一团稀疏的点,怎么确认它们描述的是同一个目标?时间同步、空间配准、坐标系转换,每一步都可能引入误差。

还有一个问题来自于时间维度,自动驾驶算法训练需要理解物体的连续运动,而不仅是单帧图像里的静态位置。传统标注是将每一帧当成独立任务来处理,前后帧之间的目标关系(如同一辆车在第1帧和第100帧之间的运动轨迹)完全要靠人工去关联,工作量大不说,还容易出错。

真正让自动化标注成为现实的,是大模型的介入。

大模型入局,标注进入了新阶段?

大模型给自动驾驶数据标注带来的核心变化是,它不再只是看图识物,而是具备了理解能力。

传统的小模型做预标注,能认出路上有车、有行人,但认不出来这辆车的具体车型,也判断不出来这个行人是不是在横穿马路。大模型不一样,经过海量数据的预训练,它积累了丰富的视觉和语言先验知识,能够生成更细粒度的语义描述,还能理解物体之间的关系。

图片源自:网络

多模态大模型的引入,就解决了2D图像和3D点云的联合理解问题。图像提供了丰富的纹理和颜色信息,点云提供了精确的几何位置和距离信息,大模型能把这两路数据自动关联起来,实现跨模态的语义对齐。武汉一家叫际数科技的公司,基于测绘领域的技术积累,自研了空间数据智能体,据称能将高质量数据建设成本降低90%,数据质量提升10倍。这套系统可以让AI同时处理卫星定位、遥感影像和地理信息系统等多源数据,在毫米级精度上完成对复杂场景的理解。

腾讯的数据闭环平台则整合了激光和视觉的4D动态标注大模型以及多模态图文检索大模型,通过大模型自动标注+人工质检修正替代了传统纯人工标注,据称可将静态真值标注环节的标注效率提升10倍,同时降低90%的标注成本。

从实际落地的效果来看,标贝科技入选国家数据局首批数据标注优秀案例的4D-BEV上亿点云标注系统也很有代表性。这套系统深度兼容自动驾驶领域的4D-BEV感知算法,能从空间和时序两个维度对车辆、行人、路标等目标进行多视角标注,轻松处理上亿量级的点云数据。据其官方发布的数据,相比传统标注方式,效率提升了约30%,准确性提高了约20%。

wKgZPGo52jSAHxKSAAASG3BOmsQ105.jpg

从三维到四维,把时间加进来?

如果说大模型解决的是认得更准的问题,那4D标注解决的就是看得更全的问题。

所谓4D,就是在传统3D空间标注的基础上增加了时间维度,4D标注不再只是标注每一帧数据,而是把一段时间内的连续帧作为一个整体来处理,为每个动态目标构建一条完整的时空轨迹。

wKgZO2o52jSARPwvAAadZZ1MXyI075.jpg

图片源自:网络

在自动驾驶算法训练中,模型需要学会预测物体的运动趋势,如前面的车是要左转还是右转,侧面的行人会不会突然横穿马路。这些信息在单帧数据里是看不到的,只有放在连续的时间序列里才能呈现出来。4D标注正好提供了这种带时间标签的真值数据。

自动化标注系统可以利用已知未来、标注过去的技术,通过离线的大规模神经网络,结合后一时刻的信息来修正前一时刻的目标标注结果。如某个目标在某几帧里被遮挡了,系统可以根据它消失前和重新出现后的轨迹来推断它在遮挡期间的精确位置。这种方法的确可以提升标注精度,但多相机之间的曝光差异、不同传感器的时间同步问题,都是需要持续攻克的难题。

4D标注的应用在行业内其实已经比较普遍,华为云的八爪鱼平台就提供了4D-BEV数据自动化预标注功能,能同时输出点云动态物体检测结果、2D图像标注结果和矢量地图。东风汽车则构建了大模型驱动的4D真值标注体系,支持2D、3D、4D全模态一体化标注。标贝科技的系统也兼容4D-BEV感知算法,能从空间和时序两个维度进行标注。

从技术成熟度来看,4D标注已经从实验室走向了工程应用,并且与视觉大模型、点云分割等技术深度结合,成为自动化标注体系中不可缺失的一环。

wKgZPGo52jWAVGIAAAASAJELks8050.jpg

从标数据到造数据,合成数据的崛起?

其实对于自动驾驶来说,长尾场景一直是技术发展中必须考虑的问题,所谓长尾场景,就是指那些发生概率极低、但一旦出现就可能导致安全事故的极端情况,如路面突然出现的散落物、前方车辆忽然爆胎、雨雾中行人横穿等等。这类场景在真实路测中几乎不可能充分覆盖,若只靠一台车一辆车去跑,累积几十万公里也未必能遇到一次。

合成数据就是为了解决这个问题而出现的技术路线,它通过仿真引擎、数字孪生或生成式模型,可主动生成那些现实世界中难以采集到的场景,用虚拟数据来填补真实数据的空白。

wKgZO2o52jWAGlwMAAB2QNwhEHc969.jpg

图片源自:网络

佐思汽研发布的《2025年中国智能辅助驾驶数据闭环研究报告》显示,2023年到2025年间,合成数据在自动驾驶训练数据中的占比从20%-30%上升到了50%-60%,已经从一个补充手段变成了核心生产资料。英伟达在这个方向上持续布局,其推出的Alpamayo 2 Super推理模型能够将数据标注周期从数月压缩至数天,同时配合OmniDreams仿真工具,利用神经重建技术将真实世界的车队影像转换为可跨传感器配置的3D场景。

学术界对此的探索也在同步推进,香港大学OpenDriveLab、中科院自动化所与小米汽车的联合团队提出的SimScale方案,通过真实世界仿真生成关键场景,提出了自动驾驶仿真数据的规模效应,即仿真数据的数量越多,端到端驾驶模型的性能上限就越高。这套方案基于3D高斯泼溅技术重建真实场景资产,通过在真实轨迹上施加合理范围的扰动来生成那些现实中难以遇见的危险情形,并设计了基于恢复和基于规划两类伪专家策略来提供高质量的监督示范。

此外,虚实结合的训练策略也在被逐步验证,真实的驾驶数据提供了基础的场景分布,合成数据则负责扩展模型的能力边界,两者互补能让模型在面对未知场景时表现得更加稳健。

wKgZPGo52jWAAgIiAAARwcz1hbg962.jpg

最后的话

回头看这几年,自动驾驶数据标注技术确实变了,AI预标注将人工修正量压到了15%以下,4D标注在部分方案中节省了超过60%的人工成本,合成数据从实验室走入了真实生产线。标注这件事,正在从一个纯人力的手工作坊,转向一个以AI为核心的自动化数据生产体系。

当然,技术迭代永远不会有终点,大模型时代,标注不再只是告诉AI这是什么,而是告诉AI为什么是这样,对标注的深度和广度提出了更高的要求。长尾场景的数据覆盖依然是个让人头疼的问题,多传感器之间的精确同步和空间配准依旧在持续优化中。但至少,方向是明确的,即把数据标注做得更准、更快、更便宜,让自动驾驶的迭代不再卡在数据这道关。

可以说,自动化标注正在做的,不只是帮自动驾驶企业省钱,而是在为整个行业扫清通往高阶自动驾驶道路上最大的一块石头。

审核编辑 黄宇

热门