Posted inNEWS
從模仿到優化:離線學習在自動駕駛策略中的效能提升實證研究
自動駕駛策略面臨的資料與執行挑戰近年來,自動駕駛系統對於大規模實際駕駛資料的需求與日俱增,但線上資料收集成本高且安全風險十足。根據 arXiv:2508.07029v1 〈From Imitation to Optimization〉,傳統以模仿學習(Behavioral Cloning, BC)為核心的策略雖然實作簡單,卻常因累積誤差導致閉環執行失穩。筆者多年從事雲端微服務與容器化部署,深知後端推論效能與系統韌性對於閉環控制的關鍵影響,需要兼顧演算法設計與生產環境最佳化之平衡。Transformer × 實體導向狀態編碼的 BC 基線作者首先在一系列 BC 基線模型上進行強化,最終採用Transformer架構,並以實體導向(entity-centric)結構化狀態作為輸入。此設計將車道線、行人、車輛等實體依屬性分群,並利用自注意力(Self-Attention)聚焦關鍵互動。根據論文實測,該模型在閉環模擬中能取得最低的 imitation loss,但在長航程(long-horizon)執行時,仍會因非訓練分布(OOD)情境而偏離預期路徑。引入保守 Q-學習的離線強化學習為解決 BC 的閉環脆弱性,研究團隊將最新的離線強化學習(Offline Reinforcement Learning, Off-RL)演算法 Conservative Q-Learning(CQL)(Kumar et al., 2020)移植至相同架構。CQL 透過對 Q 值的保守估計(minimize overestimation bias),在策略更新時加入額外罰項,確保價值函數對於未見狀態保持低估。結合精心調校的獎勵函數(包括行駛平穩度、碰撞懲罰與軌跡偏差),最終模型能在遭遇輕微偏移時自動復歸;並再次利用…