從模仿到優化：離線學習在自動駕駛策略中的效能提升實證研究

自動駕駛策略面臨的資料與執行挑戰

近年來，自動駕駛系統對於大規模實際駕駛資料的需求與日俱增，但線上資料收集成本高且安全風險十足。根據 arXiv:2508.07029v1 〈From Imitation to Optimization〉，傳統以模仿學習（Behavioral Cloning, BC）為核心的策略雖然實作簡單，卻常因累積誤差導致閉環執行失穩。筆者多年從事雲端微服務與容器化部署，深知後端推論效能與系統韌性對於閉環控制的關鍵影響，需要兼顧演算法設計與生產環境最佳化之平衡。

Transformer × 實體導向狀態編碼的 BC 基線

作者首先在一系列 BC 基線模型上進行強化，最終採用Transformer架構，並以實體導向（entity-centric）結構化狀態作為輸入。此設計將車道線、行人、車輛等實體依屬性分群，並利用自注意力（Self-Attention）聚焦關鍵互動。根據論文實測，該模型在閉環模擬中能取得最低的 imitation loss，但在長航程（long-horizon）執行時，仍會因非訓練分布（OOD）情境而偏離預期路徑。

引入保守 Q-學習的離線強化學習

為解決 BC 的閉環脆弱性，研究團隊將最新的離線強化學習（Offline Reinforcement Learning, Off-RL）演算法 Conservative Q-Learning（CQL）（Kumar et al., 2020）移植至相同架構。CQL 透過對 Q 值的保守估計（minimize overestimation bias），在策略更新時加入額外罰項，確保價值函數對於未見狀態保持低估。結合精心調校的獎勵函數（包括行駛平穩度、碰撞懲罰與軌跡偏差），最終模型能在遭遇輕微偏移時自動復歸；並再次利用 Transformer 自注意力來捕捉長期場景變化。

大規模實測：Waymo 開放資料集分析

在Waymo Open Motion Dataset（WOMD）1,000個未見場景進行閉環測試後，CQL 算法相較於最強 BC 基線，成功率提高3.2倍、碰撞率降低7.4倍。根據官方Benchmark數據，BC 模型平均閉環執行成功率約12.5%，而CQL模型則達到40.0%以上。同時在後端推論延遲（端到端含感知、決策、控制）測得均值約80ms，且透過 ONNX Runtime 和 Kubernetes Horizontal Pod Autoscaler（HPA）自動擴縮展，確保高峰流量下的 99 百分位響應時間仍在 120ms 內。這些結果表明，離線強化學習不僅在策略穩定性上具備明顯優勢，也能透過微服務化與容器化維持生產級效能。

實戰建議與未來發展佈局

基於上述研究與筆者多年架構經驗，提出以下落地建議：
1. 資料管道：使用 Apache Kafka+Flink 進行實體元資料擷取與清理，並透過 Delta Lake 保持版本一致性。
2. 模型迭代：BC階段可快速驗證行為邏輯，離線 RL 階段再導入CQL，以減少訓練循環次數。
3. DevOps流程：透過GitLab CI/CD結合Karma測試與Benchmark，確保模型改動不引入效能回歸。
4. 法規與隱私：依 GDPR 要求，對行車影像與感測器資料進行匿名化處理，並遵守GPL / Apache 2.0授權條款。

未來可朝多任務學習（Multi-Task Learning）與模擬實境混合訓練（Sim-to-Real）方向延伸，以持續提升模型的泛化能力與部署安全性。

邀請連結: https://www.okx.com/join?channelId=42974376