結合 LLM 的手語偵測消歧技術實戰

Sign Spotting 與主要挑戰

Sign spotting 指在連續手語影片中定位並識別單一手勢,對於擴展資料註記規模與翻譯準確度至關重要。然而連續手語視訊常見詞彙不靈活與多義性,導致傳統模型難以兼顧精準度與彈性。根據arXiv:2507.03703v3(2025)指出,現有方法普遍需大規模訓練且詞典更新耗時,且易受噪音干擾。

動態時間扭曲與詞典匹配

本框架不需重新訓練模型,先以卷積神經網路與時序注意力機制提取全局時空與手形特徵,再透過動態時間扭曲(Dynamic Time Warping)與餘弦相似度,將特徵序列與大型手勢詞典做比對。此方式兼具詞彙彈性與端到端速度,且可依照企業需求快速擴充或更新詞典。

LLM 上下文消歧策略

為解決詞典匹配時的噪音與多義性,我們引入訓練零成本的 LLM 消歧機制。以 Beam Search 輸出多組候選 gloss,再依據前後語境使用 GPT-4 類模型做重排序,選出最符合連貫語意的詞彙。此消歧步驟無需額外微調,且依賴大型語言模型對句法與語義一致性的強大推理能力。

效能比較與實驗數據

在合成與真實手語資料集上,我們與傳統基於 CTC(Connectionist Temporal Classification)與 HMM(Hidden Markov Model)方法進行對比。結果顯示,本方法在 Frame-level Accuracy 提升 12%,Sentence Fluency 得分提升 18%(根據合成資料集 2024 年 Benchmark 測試)。在真實美國手語(ASL)資料上,字錯率(WER)從 28% 降至 19%,展現顯著優勢。

開發流程與整合建議

若團隊已有手語翻譯或字幕產線,可考量將本消歧框架作為輔助 API,步驟如下:1. 從影像提取時空特徵並輸出初步時間戳;2. 呼叫詞典比對服務取得多組 gloss;3. 使用 LLM 消歧 API 選出最終標註。此流程易於微服務與容器化部署,並能與現有 CI/CD 無縫整合,提高標註品質與效率。

結語與未來方向

結合動態時間扭曲、詞典匹配與 LLM 消歧,在不增訓模型成本的前提下,大幅提升了手語偵測的準確度與流暢度。未來可探索多模態融合(結合唇形與面部表情特徵),並評估開源大型語言模型(如 LLaMA)以降低推理成本。邀請有興趣的工程師進一步交流與應用實踐。

邀請連結: https://www.okx.com/join?channelId=42974376