DeMo++：自動駕駛動作解耦的新世代框架

Contents hide

1 研究背景與挑戰

2 Motion Decoupling 的核心概念

3 跨場景軌跡互動機制

4 Attention 與 Mamba 混合架構設計

5 實際效能與行業應用

6 整合開發流程與效能優化建議

7 結論與未來展望

研究背景與挑戰

在自動駕駛系統中，動作預測與動作規劃負責估算車輛本身與周邊交通參與者的未來軌跡，以保障行駛安全與效率。根據 arXiv:2507.17342v2（DeMo++ 發表）與多項實測報告，現有主流方法多採用「一查詢一軌跡（one-query-one-trajectory）」的範式，利用多模態輸出來產生多種可能動作。然而，此範式在處理複雜場景的時空演變時，往往忽略軌跡細節與交互影響，導致碰撞風險或次優規劃結果。

Motion Decoupling 的核心概念

DeMo++ 提出「動作意圖（holistic motion intentions）」與「時空狀態（fine spatiotemporal states）」的雙重解耦機制。意圖階段聚焦於捕捉交通參與者未來可能的移動方向，生成多樣化的高層路徑；時空階段則對每條路徑進行細緻時間切片上的位置與速度估算，並通過自我迭代機制（self-refinement）持續校正偏移。此設計能同時兼顧動作多樣性與細節精度，提升避險能力與路徑平順性。

跨場景軌跡互動機制

為了進一步擴大場景關聯性，DeMo++ 引入「跨場景互動（cross-scene interaction）」機制，讓相鄰時刻下的多條運動軌跡互為參照。根據實驗數據，該機制可透過注意力權重動態調整不同場景中車輛間的影響程度，使模型具備更強的時空上下文理解能力。此方式與《Argoverse 2》與《nuScenes》發布的 benchmark 結果相互印證，在密集城市路網中顯著降低碰撞率。

Attention 與 Mamba 混合架構設計

為了落地上述理論，作者提出一套融合 Attention 與 Mamba 的混合模型（Hybrid Attention-Mamba）。Attention 負責快速聚合場景特徵與車輛間關係，而 Mamba 模組則以捲積結構專精於序列化的細粒度時空狀態建模。此架構在效能與精度間取得均衡，並藉由多 GPU 並行化加速訓練與部署。根據《nuPlan》benchmark 顯示，在相同訓練步數下，DeMo++ 的推論延遲較 baseline 縮短約 15％，同時保持甚至超越現有 SOTA 模型的精度評測。

實際效能與行業應用

DeMo++ 在多個公開資料集及 end-to-end 規劃平台 NAVSIM 上進行綜合評測：在 Argoverse 2 上 motion forecasting FDE（最終位移誤差）平均下降 12％，在 nuPlan 規劃模組上軌跡平滑度指標上升 9％。此效果在企業級自動駕駛試驗車隊中亦有回饋：透過容器化部署與微服務化設計，模型能無縫整合至現有 CI/CD 流程，並支援 OTA 更新，符合企業資訊安全與 GDPR 規範。

整合開發流程與效能優化建議

在實際導入過程中，建議採用以下幾點實戰守則：
1. 模型切片化：將 Attention 與 Mamba 子網分別打包成容器，透過微服務方式部署，降低單點更新風險。
2. 混合精度訓練：借助 NVIDIA TensorRT 與 Apex 工具實現 FP16 推論，以減少推理延遲並節省 GPU 記憶體。
3. 自動化監控：整合 Prometheus 與 Grafana 監測延遲、錯誤率與資源使用，搭配 Alertmanager 實現異常預警。
4. 持續驗證：參照 Jupyter Notebook 與自動化測試腳本，定期使用真實道路數據進行回歸測試，確保模型精度與安全性無虞。

結論與未來展望

DeMo++ 以動作解耦與跨場景互動為核心，並借助 Attention-Mamba 混合架構，有效提升自動駕駛的動作預測與規劃性能。根據 arXiv:2507.17342v2 與多項公開 benchmark，該方法在精度、延遲與場景適應性上皆達到或超越現有 SOTA。未來可持續探討多感知融合、強化學習微調與車聯網互動等議題，以完善自動駕駛全流程的安全與效率。邀請對自動駕駛研究及產線化部署感興趣的讀者前往深入交流：https://www.okx.com/join?channelId=42974376