基於片段化樣本的步態識別:多尺度時序上下文策略解析

為何聚焦Gait Snippet

近年來,步態識別研究主要分為集合式與序列式兩種方法,各自在精度與時序建模上皆有優勢與瓶頸。根據arXiv:2508.07782v1指出,集合式方法易忽略短期時序脈絡,序列式方法則無法有效捕捉長程依賴。為解決此二者缺失,我們提出「步態片段」(gait snippet)新觀點,模擬人類辨識行為,以隨機選取連續影片段的多段樣本,融合短期與長期時序資訊。

短期vs長期時序挑戰

步態識別須兼顧短期動作細節與長期動作模式。傳統2D卷積或3D卷積架構在短期細節提取優異,但受限於計算複雜度,難以捕捉超過若干幀的長程依賴。反之,長短時記憶網路(LSTM)或變換器(Transformer)雖能處理長時序,卻加重訓練成本。片段化樣本策略可於單次前向傳播中同時取得多尺度上下文,兼顧模型效能與資源消耗。

Snippet取樣策略詳解

本方法設計Snippet Sampling為核心模組之一,其流程分為:1. 隨機切分原始序列為若干連續片段;2. 從每段中隨機抽取固定幀數;3. 保持各片段間時間間隔多樣化,以涵蓋不同時段步態特徵。此設計靈感來自於人類辨識過程中,偶爾會回溯早期或快速掃描近期動作的觀察機制,有助於捕捉整體與局部特徵。

Snippet建模技巧與架構

在Snippet Modeling階段,我們可採用輕量2D卷積Backbone,搭配分支式匯流結構。每個樣本片段經多層卷積提取特徵後,先於片段內進行時序聚合,再將所有片段特徵於高層進行跨片段融合。此過程可利用注意力機制強化關鍵時期特徵,或透過多尺度池化取得全域上下文。此外,正規化與對比學習損失函數可進一步提升模型區分能力。

實驗效能與Benchmark分析

根據原文在四組主流資料集(CASIA-B、OUMVLP、Gait3D、GREW)的評測結果,採用2D卷積主幹時,我們於Gait3D達到Rank-1準確率77.5%,於GREW達到81.7%,較傳統序列模型平均提升約4.3個百分點。参考大型社群Benchmark報告(如 arXiv:2508.07782v1),可見多片段策略於跨領域場景(光照、遮擋)具備卓越穩健性。

實作建議與未來展望

對於工程落地,建議先在小批量資料上調校Snippet長度與片段數,再視硬體資源選擇2D或3D卷積Backbone。若需進階優化,可結合輕量Transformer或動態取樣方案,進一步強化長短時依賴。未來可探討自監督與多模態融合(如RGB+深度圖)以擴展Snippet效用。

邀請連結: 加入OKX