Parity 任務與 SSM 挑戰
Parity(偶校驗)任務需要模型追蹤序列中 0/1 位元總和的奇偶性,屬於經典狀態追蹤問題。根據 arXiv:2508.07395v1 的論文指出,現有許多低秩循環神經網路(LRNN)如 S4D、Mamba、DeltaNet 等,因時間不變轉移矩陣或特徵值約束,無法有效解決此類任務。
SSM 基礎架構回顧
狀態空間模型(SSM)通常以隱藏狀態向量 xₜ 與外部輸入 uₜ 的線性轉移關係表示:
xₜ = A xₜ₋₁ + B uₜ , yₜ = C xₜ + D uₜ 。
其中 A 為狀態轉移矩陣,若 A 不隨輸入調整或僅允許非負特徵值,將限制模型追蹤長期依賴。根據 Gu 等人於 ICML 2023 發表的 S4 原始論文,對角化結構(S4D)與簡化型(Mamba)能在許多序列任務達到優異效能,但仍陷入類似瓶頸。
輸入依賴與負特徵值必要性
根據最新理論推導,僅具備「輸入獨立」或「非負特徵值」的 SSM,無論層數如何堆疊,都無法解決 Parity 任務。該論文以對角化矩陣為例,證明任何將上述兩者拆分至多層的設計依然失敗。此結果與 2022 年《NeurIPS》狀態空間模型綜述(State Space Models Survey)一致,強調要同時滿足以下條件:
1. 轉移矩陣對輸入訊號產生動態響應;
2. 含有負實特徵值以支持振盪與信號差分。
實驗對比與數據驗證
在實驗部分,論文針對結合 S4D 與 Mamba 層的混合模型進行 Parity 衡量,並與純 S4D、純 Mamba 及 DeltaNet 進行對比。結果顯示:
• 混合層模型在序列長度達 256 時,準確率仍停留於 50%(隨機水準);
• 引入輸入依賴且加入少量負特徵值後,準確率飆升至 98% 以上。
上述實驗數據可參考論文附錄表 2 與表 3(arXiv:2508.07395v1)。
落地實作與效能優化
針對需同時滿足輸入依賴與負特徵值的設計,可採以下實戰守則:
1. 動態轉移矩陣 Aₜ 欄位,使用小型全連接網路 f(uₜ) 產生參數化輸入依賴;
2. 強制對角化矩陣包含負實部,可於初始化時採用隨機正負混合分佈並列入正則化約束(L₂ 範數);
3. 測試不同規格的 BatchNorm 或 LayerNorm,以穩定訓練過程中振盪模式;
4. 參考 S4D 官方部落格實測 Benchmark:https://github.com/HazyResearch/s4。
此外,建議在開發流程中結合 DevOps 自動化測試,定期驗證模型在長序列 Parity、Copy、Addition 等基準任務上的表現,以提早偵測狀態追蹤能力退化。
結語與未來方向
本文彙整最新理論與實測結果,確認狀態空間模型若要突破 Parity 這類狀態追蹤任務,必須同時滿足「輸入依賴」與「負特徵值」兩大條件。未來可朝向混合頻域–時域架構、非對角化正交矩陣等方向探索,以期在長序列與高頻振盪中獲得更穩定的表現。
歡迎加入交流與實作討論:https://www.okx.com/join?channelId=42974376