駕駛行為與意圖識別中的潛在不確定性表示：LUR與RLUR全方位解析

為何駕駛行為識別需不確定性估計

隨著自動駕駛與輔助駕駛系統逐漸進入資源受限的邊緣裝置，如何在真實道路場景中穩健地識別駕駛員的動作與行為意圖，成為安全關鍵任務。一般深度神經網路（DNN）雖能取得高準確度，卻對於未知情境（Out-Of-Distribution, OOD）樣本往往缺乏警示能力。透過最後一層機率深度學習（LL-PDL）方法，能在一定程度上提供不確定性估計，但模型表現與校準效果差異甚大。本文將從學術與實務角度，探討為何在視覺駕駛行為識別任務中，必須導入更精細的「潛在不確定性表示（Latent Uncertainty Representation, LUR）」與其衍生技術 RLUR，並以四個公開資料集 Benchmark 實測結果佐證。

LL-PDL 方法及其實務限制

LL-PDL 方法主流如 Monte Carlo Dropout、Deep Ensembles、Temperature Scaling 與 Dirichlet-based approaches，皆在最後一層輸出多樣本或多頭預測分佈，以衡量模型對該樣本的信心水平。然而，這些方法需額外調校超參數，且在資源受限之邊緣設備上訓練與推論成本高。根據 arXiv 白皮書 arXiv:2510.05006v1 中的實測結果，LL-PDL 方法在 NuScenes、JAAD、Honda 3D 動作與 PRECOG 四大資料集上的 OOD 檢測 AUPR（Area Under Precision-Recall curve）區間落差可達 10% 以上，且訓練時間普遍長於 LUR 近 30%。在嚴謹的邊緣部署場景中，這種資源浪費與調參困難，無疑成為安全應用的阻礙。

潛在不確定性表示（LUR）原理

為了在不增加過多訓練成本的前提下，提升不確定性估計與 OOD 偵測效果，作者提出 LUR 概念：於預訓練 DNN 主幹（backbone）之後，串接多組「轉換層」（transformation layers），從不同潛在空間 (latent space) 擷取特徵。具體流程包含：

1. 主幹網路輸出最後一層特徵向量 z。 2. 透過 K 組線性或非線性轉換 f_k(z) 生成多重潛在表示 {z_k}. 3. 各 z_k 分別進行分類預測並輸出對應機率 p_k(y|z_k). 4. 基於這 K 組預測分佈，計算不確定性度量，如訊息熵 (entropy) 或互信息 (mutual information)。

由於不需額外取樣（無需 MCMC 取樣），LUR 的訓練與推論效率較高。根據作者實測，LUR 在相同硬體資源下，訓練時間較深度集成方法短 40%，推論延遲降低 25%。此外，多重潛在表示有助於捕捉模型對不同特徵子空間的自信程度，提升 OOD 檢測穩健性。

RLUR 的排斥式訓練技術

為了進一步強化 LUR 的不確定性判別能力，論文提出「排斥式訓練（Repulsive Training）」，即 RLUR。其核心在於對不同轉換層輸出的潛在表示 z_i 與 z_j 施加距離約束，避免它們在特徵空間過度重疊。具體可採用下列排斥損失：

L_rep = \sum_{i \neq j} max(0, m – d(z_i, z_j))

其中，d(.) 可為歐氏距離或餘弦相似度，m 為排斥門檻超參數。此機制促使各表示在潛在空間上有效分散，提升多樣性，進而強化不確定性度量的分辨力。根據論文之 Benchmark 數據，RLUR 在 OOD 檢測 AUC 提升 2%～3%，同時保持 In-Distribution 分類準確度與校準度。

LUR 與 RLUR 的四資料集驗證

作者針對 NuScenes（釋出 28,000 幀動作標註、1,194 支影片意圖標註）、JAAD、Honda 3D 動作、PRECOG 四個公開 dataset，與八種 PDL 方法比較：MC Dropout、Deep Ensemble、Temp Scaling、Dirichlet + ODIN、Mahalanobis 距離、Evidential DL、SNGP 及 MIMO 等。Benchmark 指標涵蓋 In-Distribution 準確度、ECE（Expected Calibration Error）、AUPR-OOD 及 FPR@95TPR:

1. In-Distribution 分類準確度：LUR/RLUR 與 top-tier LL-PDL 方法 SDS-Temp 與 Deep Ensemble 相當（相差 <0.5%）。 2. 校準效果：ECE 減少 15%～20%，比無校準或傳統 Softmax 顯著優異。 3. OOD 檢測：LUR 在 AUPR-OOD 平均達 0.84，RLUR 達 0.86，與最優 PDL 方法不相上下。 4. 推論效率：LUR 堆疊轉換層增加不到 10% 額外延遲，而 MCMC 或 Ensemble 方式則需至少 50% 延遲增幅。

部署實務建議與 DevOps 流程

結合微服務與容器化場景，建議採用下列最佳實踐： 1. 模型開發：於主幹網路完成預訓練後，以單一 GPU 並行化訓練 K 組轉換層，可利用 PyTorch Lightning 調度多機訓練。 2. CI/CD 流程：導入 GitLab CI 或 GitHub Actions，自動化執行單元測試、校準評估及 OOD Benchmark。 3. 監控與異常通報：於推論端（如 NVIDIA Jetson Orin）整合 Prometheus 與 Grafana，定期收集模型不確定度度量指標，並於異常阈值觸發時使用 Slack 或 PagerDuty 報警。 4. 持續優化：利用 Ray Tune 或 Optuna 進行超參數搜尋，動態調整排斥損失門檻 m 與轉換層數量 K，以平衡準確度與資源消耗。

結論與未來展望

本文解析了論文 Latent Uncertainty Representations for Video-based Driver Action and Intention Recognition 的核心貢獻：LUR 與 RLUR 方法在視覺駕駛行為與意圖識別中，兼顧 In-Distribution 分類效能、不確定性校準與 OOD 檢測能力，且具備訓練與推論效率優勢。未來可進一步將 LUR 應用於多模態融合（如 LiDAR + Camera）、跨域遷移學習，以及結合生成式 AI 模型以強化少樣本學習。對於 30–40 歲資深工程師而言，上述實戰守則與 Benchmark 結果，可作為優化產品線的參考依據，同時為職涯深造提供方向。加入邀請連結