梁晓辉 陈荣波 蔡轶佳
1. 引言
自动驾驶技术正经历着快速的发展,尤其是随着感知能力和决策算法的进步,越来越多的自动驾驶系统正在走出封闭的测试环境,面临日益复杂的现实世界驾驶场景。端到端自动驾驶方法的提出试图将所有模块融合到一个单一的系统中,直接从传感器数据映射到控制指令,从而减少信息损失,提高系统效率。然而,在复杂的Robotaxi落地场景中,端到端方法缺乏城市行驶的基本逻辑知识,并且在训练中容易形成错误的捷径[1]。VLM (视觉-语言模型)的出现为端到端自动驾驶提供了新的技术路径。VLM能够将视觉信息与自然语言信息进行融合,从而实现对复杂场景的深度理解,例如识别图像中的物体、理解交通规则、分析驾驶行为等。而分层规划方法更能将Robotaxi复杂的规划任务分解成多个层次,例如全局路径规划和局部路径规划,从而更加有效地提高规划效率和应对动态环境的能力。
广州智体科技提出一种融合 VLM 的语义驱动的Robotaxi自动驾驶决策框架RobotSense。这种新型 Robotaxi 自动驾驶框架结合了VLM和E2E(端到端模型),旨在实现更安全、更智能的自动驾驶。该系统采用分层规划架构,VLM 负责生成自然语言形式的高级规划决策,然后根据 VLM 的输出和低层感知信息生成多级语义动作序列,并将这些动作序列整合成端到端模型的输入,最终由端到端模型预测精确的轨迹,将抽象的动作指令细化为更具体、更易于执行的底层动作序列,并根据当前的驾驶环境和动态目标的行为预测,生成更具针对性的动作序列,这一创新的方法增强了低层规划对高级语义信息的理解和利用能力。此外,该框架还采用了多图像编码方法、多视图提示和面向Robotaxi规划的QA等技术,以提高 VLM 在Robotaxi的场景理解能力和规划性能。RobotSense自动驾驶决策框架是现阶段能够真正将VLA (Vision-Language-Action 模型)概念落地于Robotaxi场景的自动驾驶框架,其结合了视觉(Vision)、语言(Language)和动作(Action)三个模态的数据,通过深度学习技术实现对复杂场景的理解和决策。
2. 框架设计
2.1 框架总体架构
该 Robotaxi 自动驾驶系统框架包含两大模块:RobotSensor模块通过VLM处理规划决策的生成,RobotActor模块通过E2E模型预测精确的轨迹,最终实现更安全、更智能的自动驾驶。
该系统接收多视角图像序列、Robotaxi 乘客的指令和导航命令作为输入,最终输出连续的控制指令,系统流程如下:
多视角图像序列:由多个摄像头获取的图像信息,提供不同视角下的环境信息,例如车辆周围的道路状况、交通参与者等;
Robotaxi乘客的指令与导航命令:Robotaxi 乘客的指令包括乘客想要到达的目的地、路线偏好等,导航命令则根据乘客指令和地图信息生成具体的导航路径;
VLM 感知模块:该模块负责处理多视角图像序列、Robotaxi乘客指令和导航命令,提取语义信息,并提供决策所需的环境理解,例如道路拓扑、交通规则、行人和车辆的属性与行为意图、天气和光照等环境因素;
HSARM 模块整合高层规划的输出和低层感知信息,例如车辆自身状态、周围环境信息、动态目标信息等,并进行多级推理,生成更细粒度、更具针对性的动作序列。例如,将 “左转” 分解为 “减速”、“打转向灯”、“查看侧方车辆”、“转向” 等;
端到端模型: 模型接收 HSARM 模块输出的多级语义动作序列和其他感知信息,预测车辆的精确轨迹。
2.2 RobotSensor模块
RobotSensor模块主要由三个部分组成:输入部分获取输入信息,视觉编码器用于从图像中提取特征信息,然后由Robotaxi视觉适配器实现图像特征适配。文本编码器将Robotaxi乘客指令与导航命令编码为文本tokens[2]。图像和文本tokens最终被输入到 LLM 中,LLM 用来预测高级决策。最后,HSARM 部分输出的多级语义动作序列会被整合到端到端自动驾驶模型的输入中。
2.2.1 输入部分
多视角图像序列:由多个摄像头获取的图像信息,提供不同视角下的环境信息,例如车辆周围的道路状况、交通参与者等。
Robotaxi乘客指令与导航命令:Robotaxi 乘客的指令包括乘客想要到达的目的地、路线偏好等,导航命令则根据乘客指令和地图信息生成具体的导航路径。
2.2.2 VLM 感知部分
VLM 感知部分负责将输入的图像和文本信息转化为可供决策模块使用的语义信息。该部分由三个子模块组成:
高效的视觉编码器:用于从图像中提取特征信息。可以使用 ViT、Swin Transformer 等 Transformer 模型提取图像特征,以提高图像处理的效率和准确性。
Robotaxi视觉适配器:该视觉适配器将图像特征映射到 LLM 的特征空间,使其更适合被 LLM 理解和使用。具体方法是通过图像查询对图像特征进行编码,并结合多头自注意力机制,捕捉不同视角图像特征之间的关联性,输出精简后的图像标记。
LLM(大型语言模型):通过 LLM 对输入的视觉信息进行理解,将其转化为具体的语义信息,如道路拓扑、交通规则、目标物体的属性和行为意图。该模块可以采用预训练的语言模型进行微调,以适应自动驾驶场景。在具体实施中,为了帮助 LLM 区分不同视角的图像特征并建立空间理解,智体科技为每个视角设计相应的提示模板,例如 "FRONT VIEW: \n {图像标记} \n","LEFT VIEW: \n {图像标记} \n" 等。将包含多视角图像标记和相应提示的文本输入到 LLM 中,可以增强 LLM 对驾驶场景的空间理解能力。
2.2.3 HSARM部分
在获取了语义信息后,系统通过分层动态规划模块生成控制指令。分层动态规划模块的设计需要考虑各种动态约束[3],例如车辆动力学约束、交通规则约束、舒适性约束等,以确保自动驾驶的安全性和舒适性。该部分包含三个子模块:
高层规划:该子模块接收感知部分提供的语义信息以及乘客指令,生成全局路径意图和语义元动作序列。
高层规划的目标是提供一个抽象的驾驶计划,同时考虑全局的动态约束,例如路径的可行性、交通规则的遵守情况等。低层规划:该子模块接收高层规划的输出和感知部分提供的语义信息,结合动态约束,最终输出连续的控制指令(例如转向角度、加速度)。
低层规划需要考虑局部的动态约束,例如车辆的动力学限制、避障、车道保持等,以生成安全、舒适且可执行的轨迹[4]。为了实现分层动态规划,可以采用模仿学习、强化学习或两者结合的方法进行训练。在训练过程中,智体科技将动态约束显式地整合到各个模块中,例如:
高层规划: 在路径搜索或策略学习过程中,将动态约束作为限制条件或惩罚项,引导高层规划生成满足约束的路径意图和语义元动作序列。
低层规划: 在轨迹生成或策略优化过程中,将动态约束作为优化目标的一部分,例如使用模型预测控制 (MPC) 或动态规划 (DP) 等方法生成满足约束的轨迹。为了进一步增强低层规划模块对高层语义信息的理解和利用能力,并提升其在复杂动态场景下的适应性,智体科技引入了一个名为“多级语义动作推理模块”(Hierarchical Semantic Action Reasoning Module,HSARM)。HSARM 接收高层规划的输出和低层规划所需的上下文信息,并进行多级推理,生成更细粒度、更具针对性的动作序列。
HSARM 的核心是一个多级推理机制,该机制包含以下两个关键步骤:
语义动作嵌入: HSARM 首先将高层规划输出的抽象动作指令(例如,“左转”、“靠边停车”或“加速驶入当前车道”)转换为低维稠密向量,智体科技称之为“语义动作嵌入”(Semantic Action Embedding,SAE)。HSARM 内部维护一个可学习的嵌入矩阵,为每个预定义的动作指令分配一个独一无二的向量表示。
动态上下文感知推理: HSARM 利用注意力机制将 SAE 与低层规划感知到的车辆自身状态、周围环境信息以及动态目标信息进行融合[5,6,7]。HSARM 根据融合后的信息,对 SAE 进行多级推理,生成更细粒度、更具针对性的动作序列,例如将“左转”分解为“减速”、“打转向灯”、“查看侧方车辆”、“转向”等一系列更具体的动作。
2.3 RobotActor模块
RobotActor模块以UniAD端到端自动驾驶模型[8]为基础进行扩展,HSARM部分输出的多级语义动作序列会被整合到UniAD模型的输入中。智体科技将语义动作序列中的每个动作都转换为对应的 SAE,并将这些 SAE 与多视角图像序列、导航命令等信息一同输入到UniAD模型中。通过这种方式,UniAD模型能够更好地理解 HSARM部分推理出的细粒度动作指令,并在生成轨迹时也会将动态约束作为优化目标的一部分,以确保最终生成的轨迹满足安全性、舒适性和交通规则等方面的要求。实际上,在RobotActor模块的设计中,基于HSARM部分最终输出的方式,UniAD模型完全可以灵活地替代为其他端到端自动驾驶模型。
3. Robotaxi落地场景理解
智体科技设计一系列面向Robotaxi规划的 QA,从场景描述,动态目标行为预测以及规划解释这三个维度来辅助 RobotSensor模块对Robotaxi落地场景的理解,具体来说:
3.1 场景描述: 根据感知部分提供的语义信息,生成对驾驶场景的文本描述,包括交通状况、环境、道路类型、天气状况等。这可以帮助系统更全面地理解当前的驾驶环境。
3.2 动态目标行为预测: 结合动态目标的历史轨迹和当前状态,预测其未来的行为,例如左转、右转、直行、加速、减速等。这可以帮助系统更好地预判潜在的风险,并做出更安全的决策[9]。
3.3 规划解释: 将高层规划模块生成的元动作序列和低层规划模块生成的轨迹,转换成自然语言描述,解释系统做出当前决策的原因。这可以提高系统的可解释性,增强Robotaxi的乘客对系统的信任感。
4. 训练策略
为了有效训练RobotSensor模块中的VLM感知部分,智体科技采用了多阶段的训练策略,包括:
预训练:使用大规模的图像-文本数据集对 VLM 进行预训练,例如 Conceptual Captions、LAION-5B 等数据集。预训练阶段的目标是使 VLM 学习到通用的视觉和语言表示能力。
驾驶场景微调:使用智体科技自主规划采集的用于训练Robotaxi自动驾驶的高质量传感器数据集ZTCVD(ZT City Vision Dataset) 对预训练的 VLM 进行微调。微调阶段的目标是使 VLM 适应Robotaxi自动驾驶场景,学习到驾驶相关的语义信息。自动驾驶数据集ZTCVD包含多个区域的复杂城市道路上的真实测试场景。该数据集涵盖了从密集的城市中心到郊区景观的各种环境。这个系列由不同的驾驶条件组成,包括城市环境中经历的天气、照明、建筑和交通条件的季节变化。该数据集包含上千种驾驶片段,每一片段包含多达几十秒的连续驾驶画面,数据集中的车辆、行人、自行车、标识牌等图像都经过精心标记,包含多个3D标签和2D标签等。
强化学习:使用强化学习算法对 VLM 和分层动态规划模块进行进一步训练,例如 Proximal Policy Optimization (PPO)、Soft Actor-Critic (SAC) 等算法。强化学习阶段的目标是使 VLM 和分层规划模块学习到最优的驾驶策略,从而在复杂动态环境中实现安全高效的自动驾驶[10]。
5. 实验与结果
5.1 实验设置
为了验证RobotSense框架的有效性,智体科技在多个复杂场景中进行了实验,包括城市道路、高速公路和交叉路口等,涵盖了拥堵、稀疏、雨天和夜间等不同交通状况。实验使用了nuScenes和Waymo Open Dataset等多模态数据集。
实验条件:每组实验均采用相同的环境设置,保证公平对比。
对比方法:选择传统分层规划算法、标准端到端方法以及RobotSense框架进行对比分析。
5.2 评估指标
以下基于Robotaxi场景的评估指标用于全面衡量系统性能:
路径规划误差:通过均方根误差(RMSE)评估预测轨迹与真实轨迹的偏差。
碰撞率:统计车辆与动态目标发生碰撞的比例。
乘坐舒适度:评估加速度和转向角变化的标准差,以衡量平稳性。
遵守交通规则:通过交通规则违反次数,评估车辆对交通规则的遵从程度。
任务完成率:衡量车辆是否成功到达目的地并避开障碍物。
5.3 实验结果与分析
实验结果表明,RobotSense框架在多个关键指标上相较传统方法有显著提升:
路径规划误差:误差降低了40%,表明系统能够更准确地生成轨迹。
碰撞率:降低了45%,显示出对复杂动态环境更好的适应能力。
乘坐舒适度:平稳性提高,加速度和转向角变化减少了约30%。
遵守交通规则:违反次数较传统方法减少了20%。
任务完成率:任务成功率达到98%,显著优于传统方法的89%。
深入分析:
复杂场景中的表现:RobotSense在交叉路口等高动态场景中的路径选择更加灵活,得益于VLM模块对环境的深度理解和HSARM的多级推理。
碰撞率降低的原因:多模态融合和分层动态规划有效提升了系统对周围目标行为的预测精度。
不足与挑战:在极端天气或罕见场景下,框架的泛化能力仍需进一步优化。
6. 结论与展望
RobotSense自动驾驶决策框架以语义驱动的多模态融合方法为核心,结合分层动态规划架构,开创了Robotaxi技术发展的全新路径。通过将视觉-语言模型深度嵌入感知与决策流程,该框架不仅在路径规划精度、安全性和乘坐舒适度等方面实现了显著突破,更在复杂动态城市交通场景中展现出卓越的适应性和鲁棒性,为Robotaxi落地提供了强有力的技术支撑。实验结果进一步证明了该框架在多模态感知、语义推理和轨迹优化等关键环节上的技术优势,特别是其在交叉路口等高动态环境中的表现,充分验证了多级语义推理模块的创新价值。展望未来,RobotSense框架将在数据规模扩展、模型结构优化及未见场景的泛化能力提升等方面继续迭代,进一步强化其在极端条件下的可靠性和实时响应能力。与此同时,通过引入轻量化设计与高效部署策略,该框架将更加契合实际应用场景对低延迟、高性能的要求。此外,随着智能交通技术的进一步融合发展,RobotSense将作为关键支柱,与行业合作伙伴共同推动智慧交通生态的全面升级,助力构建高效、安全、可持续的智能出行新模式。广州智体科技秉承技术创新驱动发展的理念,将继续致力于探索和完善该框架,为Robotaxi行业树立全新的技术标杆。
References
[1] Hu, Peiyun, et al. "Safe local motion planning with self-supervised freespace forecasting." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[2] Jiang, Bo, et al. "Vad: Vectorized scene representation for efficient autonomous driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[3] Chitta, Kashyap, Aditya Prakash, and Andreas Geiger. "Neat: Neural attention fields for end-to-end autonomous driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[4] Jiang, Bo, et al. "Senna: Bridging large vision-language models and end-to-end autonomous driving." arXiv preprint arXiv:2410.22313 (2024).
[5] Hafner, Danijar, et al. "Dream to control: Learning behaviors by latent imagination." arXiv preprint arXiv:1912.01603 (2019).
[6] Hu, Anthony, et al. "Model-based imitation learning for urban driving." Advances in Neural Information Processing Systems 35 (2022): 20703-20716.
[7] Khurana, Tarasha, et al. "Differentiable raycasting for self-supervised occupancy forecasting." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
[8] Hu, Yihan, et al. "Planning-oriented autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
[9] Wang, Yuqi, et al. "Driving into the future: Multiview visual forecasting and planning with world model for autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
[10] Bojarski, Mariusz, et al. "Explaining how a deep neural network trained with end-to-end learning steers a car." arXiv preprint arXiv:1704.07911 (2017).
责任编辑:kj005
文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com