軟思維與離散限制
大型語言模型(LLMs)一向以離散標記進行推理,難以表達連續且抽象的概念空間。根據 arXiv:2508.03440v2 研究指出,Soft Thinking 透過生成軟標記(soft tokens),試圖將推理遷移到連續空間,有望增進概念表達與多路徑探索。
慣性貪婪解碼現象
然而,實驗發現 LLMs 在後續解碼步驟中,往往只倚賴軟輸入中影響力最大的分量,導致多路徑探索失效,實質上退化為貪婪解碼。這一現象說明,單純傳輸更多資訊的 Soft Tokens,並無法自動提升推理多樣性。
探針分析核心成分
研究團隊透過多種 probing 技術,包含特徵空間投影與敏感度分析,檢視模型內部向量分佈。結果顯示,最大特徵值方向主導了後續生成,並且該分量的權重增長與答案趨同性高度相關,此結果與《NeurIPS》系列報告相符。
引入隨機性策略
為克服貪婪效應,研究者採用 Dirichlet 重抽樣與 Gumbel-Softmax 技巧,在保有平滑性的同時引入隨機噪聲。根據官方部落格 arXiv 資料,Dirichlet 重抽樣能提供多樣解答,而 Gumbel-Softmax 則能精控隨機強度。
多項基準實驗結果
在八項標準化推理基準測試中,Gumbel-Softmax 軟思維策略整體表現最佳。實測結果顯示,加入適度隨機後,LLMs 的推理正確率平均提升 7.4%,並且在複雜邏輯推理任務上顯著降低冗餘回合(GPTBench, 2024)。
實戰建議與未來展望
對於後端推理服務與前端互動系統,建議在生成階段配置隨機性模組,並調整 Gumbel 溫度參數以平衡創意與穩定度。未來可考慮混合硬軟標記策略,或延伸至多模態軟思維,以提升跨領域推理能力。
邀請連結: https://www.okx.com/join?channelId=42974376