自動駕駛策略面臨的資料與執行挑戰
近年來,自動駕駛系統對於大規模實際駕駛資料的需求與日俱增,但線上資料收集成本高且安全風險十足。根據 arXiv:2508.07029v1 〈From Imitation to Optimization〉,傳統以模仿學習(Behavioral Cloning, BC)為核心的策略雖然實作簡單,卻常因累積誤差導致閉環執行失穩。筆者多年從事雲端微服務與容器化部署,深知後端推論效能與系統韌性對於閉環控制的關鍵影響,需要兼顧演算法設計與生產環境最佳化之平衡。
Transformer × 實體導向狀態編碼的 BC 基線
作者首先在一系列 BC 基線模型上進行強化,最終採用Transformer架構,並以實體導向(entity-centric)結構化狀態作為輸入。此設計將車道線、行人、車輛等實體依屬性分群,並利用自注意力(Self-Attention)聚焦關鍵互動。根據論文實測,該模型在閉環模擬中能取得最低的 imitation loss,但在長航程(long-horizon)執行時,仍會因非訓練分布(OOD)情境而偏離預期路徑。
引入保守 Q-學習的離線強化學習
為解決 BC 的閉環脆弱性,研究團隊將最新的離線強化學習(Offline Reinforcement Learning, Off-RL)演算法 Conservative Q-Learning(CQL)(Kumar et al., 2020)移植至相同架構。CQL 透過對 Q 值的保守估計(minimize overestimation bias),在策略更新時加入額外罰項,確保價值函數對於未見狀態保持低估。結合精心調校的獎勵函數(包括行駛平穩度、碰撞懲罰與軌跡偏差),最終模型能在遭遇輕微偏移時自動復歸;並再次利用 Transformer 自注意力來捕捉長期場景變化。
大規模實測:Waymo 開放資料集分析
在Waymo Open Motion Dataset(WOMD)1,000個未見場景進行閉環測試後,CQL 算法相較於最強 BC 基線,成功率提高3.2倍、碰撞率降低7.4倍。根據官方Benchmark數據,BC 模型平均閉環執行成功率約12.5%,而CQL模型則達到40.0%以上。同時在後端推論延遲(端到端含感知、決策、控制)測得均值約80ms,且透過 ONNX Runtime 和 Kubernetes Horizontal Pod Autoscaler(HPA)自動擴縮展,確保高峰流量下的 99 百分位響應時間仍在 120ms 內。這些結果表明,離線強化學習不僅在策略穩定性上具備明顯優勢,也能透過微服務化與容器化維持生產級效能。
實戰建議與未來發展佈局
基於上述研究與筆者多年架構經驗,提出以下落地建議:
1. 資料管道:使用 Apache Kafka+Flink 進行實體元資料擷取與清理,並透過 Delta Lake 保持版本一致性。
2. 模型迭代:BC階段可快速驗證行為邏輯,離線 RL 階段再導入CQL,以減少訓練循環次數。
3. DevOps流程:透過GitLab CI/CD結合Karma測試與Benchmark,確保模型改動不引入效能回歸。
4. 法規與隱私:依 GDPR 要求,對行車影像與感測器資料進行匿名化處理,並遵守GPL / Apache 2.0授權條款。
未來可朝多任務學習(Multi-Task Learning)與模擬實境混合訓練(Sim-to-Real)方向延伸,以持續提升模型的泛化能力與部署安全性。
邀請連結: https://www.okx.com/join?channelId=42974376