写在前面，这篇文章是 2024 年由Berkely发的一篇paper, 虽然AR的思想是换汤不换药，这篇文章只是把汤换成了 E2E，名字取的也好，个人感觉文章写的比较清晰，而且代码已经**开源！**值得一看！

Abstract And Introduction

我们认为传统的渐进式流程仍然无法全面地模拟整个交通演变过程，例如，自车与其他交通参与者之间的未来互动以及结构化轨迹先验。

我们提出了一个以实例为中心（instance-centric）的场景分词器，它首先将周围场景转换为具有地图意识的实例标记。然后我们使用变分自编码器(a variational autoencoder)在结构化潜在空间中学习未来轨迹分布，用于轨迹先验建模。我们进一步采用一个时间模型(a tmporal model)来捕捉潜在空间中的智能体和自我运动，以生成更有效的未来轨迹。

Introduction主要在说之前的方法比如UniAD这种 serial design容易忽视自车和其他交通参与者之间潜在的未来交互信息。因此作者提出了 Generative End-to-End Autonomous Driving (GenAD) framework, 把自动驾驶建模成一个轨迹生成问题，从而释放端到端方法的全部潜能。

Untitled

我们提出了一个场景分词器(scene tokenizer)来获取以实例为中心（instance based）的场景表示，它专注于instance，同时也整合了地图信息。为了实现这一点，我们使用一个主干网络来提取每个周围摄像头的图像特征，然后将它们转换到3D俯视图（BEV）空间。我们进一步使用交叉注意力(cross-attention)来从BEV特征中提炼出高级地图和智能体标记。然后我们添加一个自我标记，并使用自我-智能体自注意力（self-attention）来捕捉它们的高阶交互。我们进一步通过交叉注意力注入地图信息，以获得具有地图意识的实例标记。为了模拟未来轨迹的结构先验，我们学习了一个变分自编码器(a variational autoencoder)，将真实轨迹映射到考虑到运动预测和驾驶规划不确定性的高斯分布。然后我们使用一个简单但有效的门控循环单元（GRU）来进行自回归，以模拟潜在结构空间中的实例运动。

在推理期间，我们从基于以实例为中心的场景表示的条件学习分布中进行采样，因此可以预测不同的可能未来。

Methodology

Untitled

3.1 Instance-Centric Scene Representation

Image to BEV

基本遵循了 BEVformer这篇文章的做法。

$$ \mathbf{B} = \mathrm{DA}(\mathbf{B_0}, \mathbf{F},\mathbf{F}) $$

其中，$\mathbf{DA}(\mathbf{Q}, \mathbf{K},\mathbf{V})$ 表示 deformable attention 模块，由交替的自注意力层和可变形交叉注意力层组成，使用 Q、K 和 V 分别作为查询、键和值。然后我们将过去 p 帧中的 BEV 特征对齐到当前坐标系中，并将它们串联起来作为最终的 BEV 特征 $\mathbf{B}$。

$\mathbf{B}_{0}:$ 初始化的 BEV tokens, 形状是 $H \times W$