本文提出了一种智能测试环境,通过训练基于人工智能的背景代理,以加速模式验证自动驾驶汽车的安全性能,且不失公正性。
通过阅读本文,你能了解到:如何利用AI来加速自动驾驶汽车的安全验证,以及如何通过密集深度强化学习(D2RL)方法来解决安全验证中的效率问题。
A: “维度诅咒”指的是驾驶环境在时空上可能非常复杂,定义这些环境所需的变量是高维的,计算复杂度随着维度的增加呈指数增长。“罕见事件诅咒”指的是安全关键事件的发生概率很低,即变量空间中的大多数点都是非安全关键的,无法为训练提供信息。
A: 因为 AV 安全验证本质上是一个高维空间中的罕见事件估计问题,传统的深度强化学习方法难以同时解决“维度诅咒”和“罕见事件诅咒”,导致训练效率低下。
A: D2RL 通过识别并移除非安全关键数据,仅利用安全关键数据训练神经网络,从而显著降低策略梯度估计的方差,提高学习效率。此外,D2RL 通过编辑马尔可夫决策过程,跳过不重要的状态,重新连接关键状态,从而实现信息密集化。
A: 增强现实测试平台将物理测试跑道和模拟环境相结合,使真实 AV 能够与虚拟 BVs 交互,从而在更安全、更可控和更高效的环境中测试 AV 的性能。
A: 在线策略学习机制可能导致次优行为策略,从而误导训练过程并最终导致低估问题。离策略学习机制通过设计一种通用行为策略,在训练过程中保持不变,从而平衡探索和利用,更适合 AV 安全验证。
本文的目标读者是对自动驾驶车辆安全验证、人工智能和强化学习技术感兴趣的研究人员、工程师和开发人员。此外,对于关注自动驾驶技术发展趋势、挑战和解决方案的行业专家、政府机构和学术界人士,本文也具有一定的参考价值。
自动驾驶汽车 (AV) 技术正在快速发展,我们正处于交通运输领域一场革命的风口浪尖,其规模是自一个世纪前汽车问世以来前所未见的。自动驾驶汽车技术有潜力大幅提高交通安全、移动性和可持续性,因此受到了全球工业界、政府机构、专业组织和学术机构的广泛关注。过去 20 年来,自动驾驶汽车的开发取得了显著进展,尤其是在深度学习兴起之后。到 2015 年,一些公司宣布他们将在 2020 年之前大规模生产自动驾驶汽车。但到目前为止,现实并未达到这些预期,并且没有 4 级自动驾驶汽车实现商业化。造成这种情况的原因有很多。但最重要的是,自动驾驶汽车的安全性能仍然远低于人类驾驶员。对于美国的普通驾驶员来说,在自然驾驶环境中发生碰撞的概率约为每英里 1.9 × 10^-6。相比之下,根据加州 2021 年的脱离报告,最先进的自动驾驶汽车的脱离率约为每英里 2.0 × 10^-5。尽管脱离率因其潜在的偏差而受到批评,但它已被广泛用于跟踪自动驾驶汽车安全性能的趋势,因为它可以说是唯一可供公众用于比较不同自动驾驶汽车的统计数据。提高自动驾驶汽车安全性能的一个关键瓶颈是安全验证的严重低效。目前的方法通常通过软件模拟、封闭测试跑道和道路测试相结合的方式在自然驾驶环境中测试自动驾驶汽车。然而,为了验证自动驾驶汽车在人类驾驶员水平上的安全性能,众所周知,需要在自然驾驶环境中测试数亿英里,有时甚至数千亿英里。由于这种严重的低效率,自动驾驶汽车开发人员必须支付大量的经济和时间成本来评估每个开发项目,这阻碍了自动驾驶汽车的部署进展。