整数有约 | 揭秘DriveLM:首个含图结构“语言+自动驾驶”全栈数据集
1. 首个含图结构的“语言+自动驾驶”全栈数据集
“与传统自动驾驶领域数据集相比,DriveLM的突出特征在于,它是一个主要针对图像,以问答对的形式进行图文结合的标注方式。”
在自动驾驶过程中,人类驾驶员的决策过程往往会比根据现实场景感知判断的脉络更加复杂。当遇到紧急情况,如车上有即将分娩的孕妇,遇到红绿灯时,人类驾驶员可能会选择不遵守交通规则来保证将孕妇及时送达医院,在这种情况下,基于交通行驶规则的自动驾驶模型可能不能很好地模拟人类决策逻辑和意图,从而做出与驾驶员意愿背道而驰的决策和规划。为了训练能够更好模拟人类逻辑思维和决策过程的自动驾驶模型,上海人工智能实验室(OpenDriveLab)提出利用现有成熟大语言模型和预料数据库,辅以推理Prompt技术,将大语言模型中的推理范式应用在自动驾驶系统中的设想。使用大语言模型(LLM)模拟人类理解驾驶环境,可以使系统像人类一样通过持续驾驶积累经验,是提高自动驾驶理解能力和环境交互能力的重要研究发展方向。与此同时,使用大语言模型的设想也为自动驾驶领域研究带来新的限制和挑战,其中最主要的困难在于大语言模型需要大量的计算资源和数据。
OpenDriveLab联合OpenGVLab、德国图宾根大学Autonomous Vision Group和德国图宾根AI Center,推出了世界首个语言+自动驾驶全栈开源数据集——DriveLM,借助大语言模型和海量自然语言数据集,构筑复杂场景下安全、精准、可解释的自动驾驶系统,突破现有自动驾驶推理能力上限。
相关链接:
Repository: https://github.com/OpenDriveLab/DriveLM
Page: https://opendrivelab.github.io/DriveLM
Hugging Face: https://huggingface.co/datasets/OpenDrive/DriveLM
2. DriveLM-Data:强有力的数据支撑
DriveLM是一个基于nuScenes自动驾驶数据集构建的、以关键帧描述+问答对(Description+Q&A)为核心的数据集。数据集中的问答对主要分为感知(Perception)、预测(Prediction)和规划(Planning)三类。感知部分着重于询问物体相对自车的位置或运动状态;预测部分询问车辆或行人的未来可能行为和状态;规划部分询问自车可以采取的行动。
数据集分为训练集和验证集两部分,训练集共包含697个场景,验证集包含150个场景。每个场景包含大约40帧(采样频率约为2赫兹),标注员会在其中选择4-8个关键帧进行标注。
“问答是一个非常贴近于人思维逻辑的描述范式。DriveLM并不需要非常关注自动驾驶场景下的方法性,而是更关注它的决策逻辑是否符合人类的思维的链路。”
OpenDriveLab团队希望能够建构一个更加接近人类决策行为逻辑的模型,因此采用了问答对的形式对驾驶场景进行标注和描述。类似问答对形式的标注在机器人人工智能领域已经有了比较广泛的应用,但是在自动驾驶场景下还没有可用的标注模版。OpenDriveLab团队基于传统自动驾驶感知、预测、规划三个模块,围绕团队评估的较为重要的决策问答设计问题和答案的模版,这些模版经过了社区的讨论和审查,并交给专业的数据标注团队,以看图或视频进行描述和回答的形式进行问答对标注。
“驾驶的最终目的是平稳舒适地到达目的地,我们想帮助模型学习我们最终的意图,以达到终点为目标,而不是过分拟合到数据的标准上。”
DriveLM-nuScenes
的标注过程分为三个步骤:从视频片段中选择关键帧,从关键帧中选择关键对象,为关键对象标注帧级的问答对。其中一部分感知问答对是根据nuScenes
和OpenLane-V2
地面实况生成的,而其余的问答对则是人工标注的。由于DriveLMnuScenes中绝大多数数据都需要经过人工标注,因此这部分数据的质量尤为重要。
面对同样的驾驶场景,不同驾驶风格的司机可能会做出不同的决策。比如在路面行驶过程中,面对前方的车辆,不同的司机可能会做出或激进或保守的不同选择,在这样的场景下,不同驾驶习惯的数据标注员也会做出不同的决策。对于这样的场景,在标注和验收的过程中,OpenDriveLab团队会尊重标注员的标注意识,如果当前场景既可以超车,也可以跟车,那么两种决策都会被保留在数据集中。团队认为,驾驶的最终目的是平稳舒适地达到目的地,而中途采取怎样的操作不应该局限于单一的标准,丰富的标注范式可以帮助模型学习到行驶人员真正的意图,以达到终点为目标,而不是过分拟合到数据的标准度上。因此,在关键对象的标注过程中,OpenDriveLab团队设置了事实性问题和开放性问题。事实性问题采用基于规则的方法生成回答,开放性问题由经过统一指导的专业数据标注员根据设计好的问题进行手动标注。
“问答对形式的数据标注任务在自动驾驶领域是非常新的一个任务,在实际展开业务的过程中,评价标准也在不断迭代更新,以保证数据质量。”
为保证数据质量,OpenDriveLab团队设置了多轮严格的数据质量检查,在每一轮检查中,数据被分为不同批次,抽查每个批次中百分之十的数据,如果合格率没有达到预期,标注者就会被要求重新标注该批数据中的所有数据。数据检查的标准随着标注工作的展开不断更新迭代,问答对的数据标注任务在自动驾驶领域是非常新的一个任务,OpenDriveLab团队在定义任务时,随机在数据中筛选了一些场景,尝试用自己的视角进行标注。在实际展开业务的过程中,团队遇到了一些既有逻辑无法解释的问题,因此评价标准也在不断地更新。在这个过程中,整数智能的标注员会将标注过程中遇到的问题实时反馈给OpenDriveLab团队,团队根据问题对标注范式和管理规范进行讨论和更新,从而不断提高和丰富数据对人类决策逻辑的拟合和数据总体质量。
3. 整数智能助力搭建DriveLM-nuScenes数据集
“我们希望能够和整数智能保持持续的友好合作,未来能在数据标准和比赛赛事有一些更加深入的合作,在数据集建构中充分发挥整数智能的专业性和高效性优势,保证数据标注的高效率、数据集的高质量。”
在DriveLM-nuScenes的标注过程中,标注框和标注框之间逻辑关系的深化拓展、开放性的场景描述和严格的数据标注标准,离不开定制化的标注工具和专业的数据标注团队。
根据定制化需求提供数据标注服务
OpenDriveLab团队的研究人员对准备了大量包括图片和视频在内的驾驶场景数据,并进行了预标注和初步筛选 ,为了缩短数据生产所需要的时间,让OpenDriveLab团队方案快速落地,整数智能基于OpenDriveLab团队的定制化需求成立了独立项目组,帮助研究人员将需求文档转化为标注文档,并与项目团队和标注人员透传标注细则,定制更敏捷、可扩展、智能化的数据标注流程,取代当前传统的标注方式,为OpenDriveLab团队建构nuScenes
提供了理想的数据处理和标注服务。项目团队基于OpenDriveLab团队的标注需求,设置结构化标注规则引导标注员的思考思路,为复杂场景的标注和具有主观特性的场景描述提供了更灵活的标注方式,并在此基础上加入自由形式的问题,允许标注员就当前帧生成基于个人理解和判断的描述。
支持高灵活性逻辑架构的数据标注平台
整数家的Mooredata平台支持数据标注过程中根据个性化需求设置标注逻辑框架,包括不同属性和标签的层级设置,这为数据标注员提供了情景化描述的空间,也为对象间逻辑关系进行描述标注提供支持。标注团队为车辆行驶注意的不同优先级提供了不同层次标签的设置功能,使得具有主观性的自然语言描述能够通过标注选项的设置转化为可量化的标注数据,在准确度和标准度之间达到平衡。如在关于交通标志的特殊标注框的描述中,就可以设置“是否为交通标志-是否对自车具有参考意义-结合标志和场景自车最可能做出的行为”三个层级,从而实现了主观性标注中自然语言的量化和数据组织结构的标准化、规范化。
项目组积极沟通持续反馈完成高质量交付
在标注过程中,整数智能团队从标注视角为项目执行提供诸多助力,项目组与OpenDriveLab团队进行实时反馈和持续沟通,OpenDriveLab团队基于标注团队的反馈,不断优化面对不同复杂场景的标注细则和方案,保证了数据集的质量。
4. DriveLM的未来:构建规模更大的自动驾驶语言数据集
“尽管在DriveLM数据集推出后,自动驾驶的语言数据集领域已经有了一些迭代,但是现有的数据量还不足以支持语言的泛化,未来我们OpenDriveLab团队希望能够不断扩大语言数据集。”
OpenDriveLab团队希望DriveLM能成为一个起点,为VLM 在自动驾驶领域的应用提供新的指引,并最终解决长期决策的问题。尽管自动驾驶数据集在DriveLM数据集推出后已经有了迭代发展,但是现有数据集的规模仍然不能很好地支持大语言模型在自动驾驶训练中达到理想的泛化效果。整数智能也将基于自动驾驶研究需求,持续多方发力,助力自动驾驶领域更多前沿数据集的建构。
感谢来自上海人工智能实验室的李阳老师与我们分享DriveLM数据集的建构经验。
李阳,上海人工智能实验室算法工程师。具有多个自动驾驶量产项目交付经历,相关工作在国际会议与期刊如ECCV、NeurIPS等发表,申请专利10余项。主要研究方向为端到端自动驾驶、数据闭环与环境感知研究,为多家自动驾驶公司提供了实际量产落地方案。
Abaka AI Co., Ltd., originated from the Institute of Computing Technology Innovation at Zhejiang University, is committed to becoming the data partner in the AI industry. Abaka AI is also a member of the China Artificial Intelligence Industry Development Alliance, the ASAM Association, and the Zhejiang Province Artificial Intelligence Industry Technology Alliance. The company provides the MooreData Platform and ACE Service, which meet the needs for advanced intelligent annotation tools and high-quality data across numerous AI application scenarios such as autonomous driving and AIGC.
Smart Data Engineering Platform
MooreData Platform
Dataset Construction Service
ACE Service
(ACcurate & Efficient)
To date, the company has partnered with over 1,000 top tech companies and research institutions worldwide. It holds dozens of intellectual property rights and has obtained international certifications such as ISO9001 and ISO27001. Abaka AI has also frequently contributed to the development of standards and white papers in the AI field, and has been featured in media outlets including CCTV Finance Channel, Xinyue Hangzhou Business, Zhejiang TV, and Suzhou TV.