基於片段化樣本的步態識別：多尺度時序上下文策略解析

為何聚焦Gait Snippet

近年來，步態識別研究主要分為集合式與序列式兩種方法，各自在精度與時序建模上皆有優勢與瓶頸。根據arXiv:2508.07782v1指出，集合式方法易忽略短期時序脈絡，序列式方法則無法有效捕捉長程依賴。為解決此二者缺失，我們提出「步態片段」（gait snippet）新觀點，模擬人類辨識行為，以隨機選取連續影片段的多段樣本，融合短期與長期時序資訊。

短期vs長期時序挑戰

步態識別須兼顧短期動作細節與長期動作模式。傳統2D卷積或3D卷積架構在短期細節提取優異，但受限於計算複雜度，難以捕捉超過若干幀的長程依賴。反之，長短時記憶網路（LSTM）或變換器（Transformer）雖能處理長時序，卻加重訓練成本。片段化樣本策略可於單次前向傳播中同時取得多尺度上下文，兼顧模型效能與資源消耗。

Snippet取樣策略詳解

本方法設計Snippet Sampling為核心模組之一，其流程分為：1. 隨機切分原始序列為若干連續片段；2. 從每段中隨機抽取固定幀數；3. 保持各片段間時間間隔多樣化，以涵蓋不同時段步態特徵。此設計靈感來自於人類辨識過程中，偶爾會回溯早期或快速掃描近期動作的觀察機制，有助於捕捉整體與局部特徵。

Snippet建模技巧與架構

在Snippet Modeling階段，我們可採用輕量2D卷積Backbone，搭配分支式匯流結構。每個樣本片段經多層卷積提取特徵後，先於片段內進行時序聚合，再將所有片段特徵於高層進行跨片段融合。此過程可利用注意力機制強化關鍵時期特徵，或透過多尺度池化取得全域上下文。此外，正規化與對比學習損失函數可進一步提升模型區分能力。

實驗效能與Benchmark分析

根據原文在四組主流資料集（CASIA-B、OUMVLP、Gait3D、GREW）的評測結果，採用2D卷積主幹時，我們於Gait3D達到Rank-1準確率77.5％，於GREW達到81.7％，較傳統序列模型平均提升約4.3個百分點。参考大型社群Benchmark報告（如 arXiv:2508.07782v1），可見多片段策略於跨領域場景（光照、遮擋）具備卓越穩健性。

實作建議與未來展望

對於工程落地，建議先在小批量資料上調校Snippet長度與片段數，再視硬體資源選擇2D或3D卷積Backbone。若需進階優化，可結合輕量Transformer或動態取樣方案，進一步強化長短時依賴。未來可探討自監督與多模態融合（如RGB＋深度圖）以擴展Snippet效用。

邀請連結: 加入OKX