摘要

基于密集强化学习的自动驾驶汽车安全验证

本文提出了一种智能测试环境，通过训练基于人工智能的背景代理，以加速模式验证自动驾驶汽车的安全性能，且不失公正性。
通过阅读本文，你能了解到：如何利用AI来加速自动驾驶汽车的安全验证，以及如何通过密集深度强化学习（D2RL）方法来解决安全验证中的效率问题。

核心内容：

1. 密集深度强化学习（D2RL）方法：

核心思想：识别并移除非安全关键数据，利用安全关键数据训练神经网络。
原理：通过移除不重要的状态并重新连接关键状态来编辑马尔可夫决策过程，然后仅针对编辑后的马尔可夫过程训练神经网络。
优势：与传统的深度强化学习方法相比，D2RL 可以显著降低策略梯度估计的方差，且不失公正性，从而使神经网络能够学习并完成传统方法难以处理的任务。

2. 智能测试环境：

训练背景车辆（BVs）：通过神经网络训练背景车辆，使其学习何时执行何种对抗性动作，从而提高测试效率并确保评估的公正性。
应用：可应用于复杂的驾驶环境，包括多条高速公路、交叉路口和环形交叉路口。
范式转变：通过 AI 验证 AI，为其他安全关键系统的加速测试和训练打开了大门。

3. 增强现实测试平台：

结合物理测试跑道和微观交通模拟器 SUMO，同步真实 AV 和虚拟 BVs 的运动。
效果：使真实 AV 仿佛置身于真实的交通环境中，从而更安全、更可控、更高效地测试 AV。

4. 奖励函数设计：

目标：最小化 AV 测试的估计方差。
原理：基于重要性抽样理论，奖励函数与测试性能高度一致，奖励越高表示测试环境越高效。
适用性：该奖励函数具有通用性，适用于其他具有高维变量的罕见事件估计问题。

5. 离策略学习机制：

原因：在线策略学习机制（on-policy）可能导致次优行为策略，从而误导训练过程并最终导致低估问题。
方法：设计一种离策略学习机制，其中通用行为策略在训练过程中保持不变，从而平衡探索和利用。

6. 实验结果：

仿真和实地测试结果表明，D2RL 方法可以有效地学习智能测试环境，与在 NDE 中直接测试 AV 相比，可以以无偏的方式将 AV 的评估过程加速多个数量级（快 10^3 到 10^5 倍）。
通过稀疏对抗控制来解决维度诅咒问题，并利用 AI 技术训练 BVs 以真正学习测试智能。

问答

Q: 什么是“维度诅咒”和“罕见事件诅咒”？

A: “维度诅咒”指的是驾驶环境在时空上可能非常复杂，定义这些环境所需的变量是高维的，计算复杂度随着维度的增加呈指数增长。“罕见事件诅咒”指的是安全关键事件的发生概率很低，即变量空间中的大多数点都是非安全关键的，无法为训练提供信息。

Q: 为什么传统的深度强化学习方法在 AV 安全验证中效率低下？

A: 因为 AV 安全验证本质上是一个高维空间中的罕见事件估计问题，传统的深度强化学习方法难以同时解决“维度诅咒”和“罕见事件诅咒”，导致训练效率低下。

Q: D2RL 如何克服传统 DRL 的局限性？

A: D2RL 通过识别并移除非安全关键数据，仅利用安全关键数据训练神经网络，从而显著降低策略梯度估计的方差，提高学习效率。此外，D2RL 通过编辑马尔可夫决策过程，跳过不重要的状态，重新连接关键状态，从而实现信息密集化。

Q: 增强现实测试平台在 AV 安全验证中的作用是什么？

A: 增强现实测试平台将物理测试跑道和模拟环境相结合，使真实 AV 能够与虚拟 BVs 交互，从而在更安全、更可控和更高效的环境中测试 AV 的性能。

Q: 离策略学习机制为什么比在线策略学习机制更适合 AV 安全验证？

A: 在线策略学习机制可能导致次优行为策略，从而误导训练过程并最终导致低估问题。离策略学习机制通过设计一种通用行为策略，在训练过程中保持不变，从而平衡探索和利用，更适合 AV 安全验证。

思维导图

目标读者

本文的目标读者是对自动驾驶车辆安全验证、人工智能和强化学习技术感兴趣的研究人员、工程师和开发人员。此外，对于关注自动驾驶技术发展趋势、挑战和解决方案的行业专家、政府机构和学术界人士，本文也具有一定的参考价值。

作者背景

Shuo Feng 在清华大学自动化系任职，并在密西根大学交通运输研究所进行研究。他的研究重点是自动驾驶车辆的安全验证和智能测试环境的开发。

历史背景

自动驾驶汽车 (AV) 技术正在快速发展，我们正处于交通运输领域一场革命的风口浪尖，其规模是自一个世纪前汽车问世以来前所未见的。自动驾驶汽车技术有潜力大幅提高交通安全、移动性和可持续性，因此受到了全球工业界、政府机构、专业组织和学术机构的广泛关注。过去 20 年来，自动驾驶汽车的开发取得了显著进展，尤其是在深度学习兴起之后。到 2015 年，一些公司宣布他们将在 2020 年之前大规模生产自动驾驶汽车。但到目前为止，现实并未达到这些预期，并且没有 4 级自动驾驶汽车实现商业化。造成这种情况的原因有很多。但最重要的是，自动驾驶汽车的安全性能仍然远低于人类驾驶员。对于美国的普通驾驶员来说，在自然驾驶环境中发生碰撞的概率约为每英里 1.9 × 10^-6。相比之下，根据加州 2021 年的脱离报告，最先进的自动驾驶汽车的脱离率约为每英里 2.0 × 10^-5。尽管脱离率因其潜在的偏差而受到批评，但它已被广泛用于跟踪自动驾驶汽车安全性能的趋势，因为它可以说是唯一可供公众用于比较不同自动驾驶汽车的统计数据。提高自动驾驶汽车安全性能的一个关键瓶颈是安全验证的严重低效。目前的方法通常通过软件模拟、封闭测试跑道和道路测试相结合的方式在自然驾驶环境中测试自动驾驶汽车。然而，为了验证自动驾驶汽车在人类驾驶员水平上的安全性能，众所周知，需要在自然驾驶环境中测试数亿英里，有时甚至数千亿英里。由于这种严重的低效率，自动驾驶汽车开发人员必须支付大量的经济和时间成本来评估每个开发项目，这阻碍了自动驾驶汽车的部署进展。

Dense reinforcement learning for safety validation of autonomous vehicles

摘要