写在前面,这篇文章是 2024 年由Berkely发的一篇paper, 虽然AR的思想是换汤不换药,这篇文章只是把汤换成了 E2E,名字取的也好,个人感觉文章写的比较清晰,而且代码已经**开源!**值得一看!
我们认为传统的渐进式流程仍然无法全面地模拟整个交通演变过程,例如,自车与其他交通参与者之间的未来互动以及结构化轨迹先验。
我们提出了一个以实例为中心(instance-centric)的场景分词器,它首先将周围场景转换为具有地图意识的实例标记。然后我们使用变分自编码器(a variational autoencoder)在结构化潜在空间中学习未来轨迹分布,用于轨迹先验建模。我们进一步采用一个时间模型(a tmporal model)来捕捉潜在空间中的智能体和自我运动,以生成更有效的未来轨迹。
Introduction主要在说之前的方法比如UniAD这种 serial design容易忽视自车和其他交通参与者之间潜在的未来交互信息。因此作者提出了 Generative End-to-End Autonomous Driving (GenAD) framework, 把自动驾驶建模成一个轨迹生成问题,从而释放端到端方法的全部潜能。

我们提出了一个场景分词器(scene tokenizer)来获取以实例为中心(instance based)的场景表示,它专注于instance,同时也整合了地图信息。为了实现这一点,我们使用一个主干网络来提取每个周围摄像头的图像特征,然后将它们转换到3D俯视图(BEV)空间。我们进一步使用交叉注意力(cross-attention)来从BEV特征中提炼出高级地图和智能体标记。然后我们添加一个自我标记,并使用自我-智能体自注意力(self-attention)来捕捉它们的高阶交互。我们进一步通过交叉注意力注入地图信息,以获得具有地图意识的实例标记。为了模拟未来轨迹的结构先验,我们学习了一个变分自编码器(a variational autoencoder),将真实轨迹映射到考虑到运动预测和驾驶规划不确定性的高斯分布。然后我们使用一个简单但有效的门控循环单元(GRU)来进行自回归,以模拟潜在结构空间中的实例运动。
在推理期间,我们从基于以实例为中心的场景表示的条件学习分布中进行采样,因此可以预测不同的可能未来。

基本遵循了 BEVformer这篇文章的做法。
$$ \mathbf{B} = \mathrm{DA}(\mathbf{B_0}, \mathbf{F},\mathbf{F}) $$
其中,$\mathbf{DA}(\mathbf{Q}, \mathbf{K},\mathbf{V})$ 表示 deformable attention 模块,由交替的自注意力层和可变形交叉注意力层组成,使用 Q、K 和 V 分别作为查询、键和值。然后我们将过去 p 帧中的 BEV 特征对齐到当前坐标系中,并将它们串联起来作为最终的 BEV 特征 $\mathbf{B}$。
$\mathbf{B}_{0}:$ 初始化的 BEV tokens, 形状是 $H \times W$