駕駛行為與意圖識別中的潛在不確定性表示:LUR與RLUR全方位解析

為何駕駛行為識別需不確定性估計

隨著自動駕駛與輔助駕駛系統逐漸進入資源受限的邊緣裝置,如何在真實道路場景中穩健地識別駕駛員的動作與行為意圖,成為安全關鍵任務。一般深度神經網路(DNN)雖能取得高準確度,卻對於未知情境(Out-Of-Distribution, OOD)樣本往往缺乏警示能力。透過最後一層機率深度學習(LL-PDL)方法,能在一定程度上提供不確定性估計,但模型表現與校準效果差異甚大。本文將從學術與實務角度,探討為何在視覺駕駛行為識別任務中,必須導入更精細的「潛在不確定性表示(Latent Uncertainty Representation, LUR)」與其衍生技術 RLUR,並以四個公開資料集 Benchmark 實測結果佐證。

LL-PDL 方法及其實務限制

LL-PDL 方法主流如 Monte Carlo Dropout、Deep Ensembles、Temperature Scaling 與 Dirichlet-based approaches,皆在最後一層輸出多樣本或多頭預測分佈,以衡量模型對該樣本的信心水平。然而,這些方法需額外調校超參數,且在資源受限之邊緣設備上訓練與推論成本高。根據 arXiv 白皮書 arXiv:2510.05006v1 中的實測結果,LL-PDL 方法在 NuScenes、JAAD、Honda 3D 動作與 PRECOG 四大資料集上的 OOD 檢測 AUPR(Area Under Precision-Recall curve)區間落差可達 10% 以上,且訓練時間普遍長於 LUR 近 30%。在嚴謹的邊緣部署場景中,這種資源浪費與調參困難,無疑成為安全應用的阻礙。

潛在不確定性表示(LUR)原理

為了在不增加過多訓練成本的前提下,提升不確定性估計與 OOD 偵測效果,作者提出 LUR 概念:於預訓練 DNN 主幹(backbone)之後,串接多組「轉換層」(transformation layers),從不同潛在空間 (latent space) 擷取特徵。具體流程包含:

1. 主幹網路輸出最後一層特徵向量 z。 2. 透過 K 組線性或非線性轉換 f_k(z) 生成多重潛在表示 {z_k}. 3. 各 z_k 分別進行分類預測並輸出對應機率 p_k(y|z_k). 4. 基於這 K 組預測分佈,計算不確定性度量,如訊息熵 (entropy) 或互信息 (mutual information)。

由於不需額外取樣(無需 MCMC 取樣),LUR 的訓練與推論效率較高。根據作者實測,LUR 在相同硬體資源下,訓練時間較深度集成方法短 40%,推論延遲降低 25%。此外,多重潛在表示有助於捕捉模型對不同特徵子空間的自信程度,提升 OOD 檢測穩健性。

RLUR 的排斥式訓練技術

為了進一步強化 LUR 的不確定性判別能力,論文提出「排斥式訓練(Repulsive Training)」,即 RLUR。其核心在於對不同轉換層輸出的潛在表示 z_i 與 z_j 施加距離約束,避免它們在特徵空間過度重疊。具體可採用下列排斥損失:

L_rep = \sum_{i \neq j} max(0, m – d(z_i, z_j))

其中,d(.) 可為歐氏距離或餘弦相似度,m 為排斥門檻超參數。此機制促使各表示在潛在空間上有效分散,提升多樣性,進而強化不確定性度量的分辨力。根據論文之 Benchmark 數據,RLUR 在 OOD 檢測 AUC 提升 2%~3%,同時保持 In-Distribution 分類準確度與校準度。

LUR 與 RLUR 的四資料集驗證

作者針對 NuScenes(釋出 28,000 幀動作標註、1,194 支影片意圖標註)、JAAD、Honda 3D 動作、PRECOG 四個公開 dataset,與八種 PDL 方法比較:MC Dropout、Deep Ensemble、Temp Scaling、Dirichlet + ODIN、Mahalanobis 距離、Evidential DL、SNGP 及 MIMO 等。Benchmark 指標涵蓋 In-Distribution 準確度、ECE(Expected Calibration Error)、AUPR-OOD 及 FPR@95TPR:

1. In-Distribution 分類準確度:LUR/RLUR 與 top-tier LL-PDL 方法 SDS-Temp 與 Deep Ensemble 相當(相差 <0.5%)。 2. 校準效果:ECE 減少 15%~20%,比無校準或傳統 Softmax 顯著優異。 3. OOD 檢測:LUR 在 AUPR-OOD 平均達 0.84,RLUR 達 0.86,與最優 PDL 方法不相上下。 4. 推論效率:LUR 堆疊轉換層增加不到 10% 額外延遲,而 MCMC 或 Ensemble 方式則需至少 50% 延遲增幅。

部署實務建議與 DevOps 流程

結合微服務與容器化場景,建議採用下列最佳實踐: 1. 模型開發:於主幹網路完成預訓練後,以單一 GPU 並行化訓練 K 組轉換層,可利用 PyTorch Lightning 調度多機訓練。 2. CI/CD 流程:導入 GitLab CI 或 GitHub Actions,自動化執行單元測試、校準評估及 OOD Benchmark。 3. 監控與異常通報:於推論端(如 NVIDIA Jetson Orin)整合 Prometheus 與 Grafana,定期收集模型不確定度度量指標,並於異常阈值觸發時使用 Slack 或 PagerDuty 報警。 4. 持續優化:利用 Ray Tune 或 Optuna 進行超參數搜尋,動態調整排斥損失門檻 m 與轉換層數量 K,以平衡準確度與資源消耗。

結論與未來展望

本文解析了論文 Latent Uncertainty Representations for Video-based Driver Action and Intention Recognition 的核心貢獻:LUR 與 RLUR 方法在視覺駕駛行為與意圖識別中,兼顧 In-Distribution 分類效能、不確定性校準與 OOD 檢測能力,且具備訓練與推論效率優勢。未來可進一步將 LUR 應用於多模態融合(如 LiDAR + Camera)、跨域遷移學習,以及結合生成式 AI 模型以強化少樣本學習。對於 30–40 歲資深工程師而言,上述實戰守則與 Benchmark 結果,可作為優化產品線的參考依據,同時為職涯深造提供方向。加入邀請連結