結合 LLM 的手語偵測消歧技術實戰

Sign Spotting 與主要挑戰

Sign spotting 指在連續手語影片中定位並識別單一手勢，對於擴展資料註記規模與翻譯準確度至關重要。然而連續手語視訊常見詞彙不靈活與多義性，導致傳統模型難以兼顧精準度與彈性。根據arXiv:2507.03703v3（2025）指出，現有方法普遍需大規模訓練且詞典更新耗時，且易受噪音干擾。

動態時間扭曲與詞典匹配

本框架不需重新訓練模型，先以卷積神經網路與時序注意力機制提取全局時空與手形特徵，再透過動態時間扭曲（Dynamic Time Warping）與餘弦相似度，將特徵序列與大型手勢詞典做比對。此方式兼具詞彙彈性與端到端速度，且可依照企業需求快速擴充或更新詞典。

LLM 上下文消歧策略

為解決詞典匹配時的噪音與多義性，我們引入訓練零成本的 LLM 消歧機制。以 Beam Search 輸出多組候選 gloss，再依據前後語境使用 GPT-4 類模型做重排序，選出最符合連貫語意的詞彙。此消歧步驟無需額外微調，且依賴大型語言模型對句法與語義一致性的強大推理能力。

效能比較與實驗數據

在合成與真實手語資料集上，我們與傳統基於 CTC（Connectionist Temporal Classification）與 HMM（Hidden Markov Model）方法進行對比。結果顯示，本方法在 Frame-level Accuracy 提升 12%，Sentence Fluency 得分提升 18%（根據合成資料集 2024 年 Benchmark 測試）。在真實美國手語（ASL）資料上，字錯率（WER）從 28% 降至 19%，展現顯著優勢。

開發流程與整合建議

若團隊已有手語翻譯或字幕產線，可考量將本消歧框架作為輔助 API，步驟如下：1. 從影像提取時空特徵並輸出初步時間戳；2. 呼叫詞典比對服務取得多組 gloss；3. 使用 LLM 消歧 API 選出最終標註。此流程易於微服務與容器化部署，並能與現有 CI/CD 無縫整合，提高標註品質與效率。

結語與未來方向

結合動態時間扭曲、詞典匹配與 LLM 消歧，在不增訓模型成本的前提下，大幅提升了手語偵測的準確度與流暢度。未來可探索多模態融合（結合唇形與面部表情特徵），並評估開源大型語言模型（如 LLaMA）以降低推理成本。邀請有興趣的工程師進一步交流與應用實踐。

邀請連結: https://www.okx.com/join?channelId=42974376