統一輸入依賴與負特徵值：突破 SSM 解 Parity 任務瓶頸

Parity 任務與 SSM 挑戰

Parity（偶校驗）任務需要模型追蹤序列中 0/1 位元總和的奇偶性，屬於經典狀態追蹤問題。根據 arXiv:2508.07395v1 的論文指出，現有許多低秩循環神經網路（LRNN）如 S4D、Mamba、DeltaNet 等，因時間不變轉移矩陣或特徵值約束，無法有效解決此類任務。

SSM 基礎架構回顧

狀態空間模型（SSM）通常以隱藏狀態向量 xₜ 與外部輸入 uₜ 的線性轉移關係表示：

xₜ = A xₜ₋₁ + B uₜ , yₜ = C xₜ + D uₜ 。

其中 A 為狀態轉移矩陣，若 A 不隨輸入調整或僅允許非負特徵值，將限制模型追蹤長期依賴。根據 Gu 等人於 ICML 2023 發表的 S4 原始論文，對角化結構（S4D）與簡化型（Mamba）能在許多序列任務達到優異效能，但仍陷入類似瓶頸。

輸入依賴與負特徵值必要性

根據最新理論推導，僅具備「輸入獨立」或「非負特徵值」的 SSM，無論層數如何堆疊，都無法解決 Parity 任務。該論文以對角化矩陣為例，證明任何將上述兩者拆分至多層的設計依然失敗。此結果與 2022 年《NeurIPS》狀態空間模型綜述（State Space Models Survey）一致，強調要同時滿足以下條件：

1. 轉移矩陣對輸入訊號產生動態響應；
2. 含有負實特徵值以支持振盪與信號差分。

實驗對比與數據驗證

在實驗部分，論文針對結合 S4D 與 Mamba 層的混合模型進行 Parity 衡量，並與純 S4D、純 Mamba 及 DeltaNet 進行對比。結果顯示：

• 混合層模型在序列長度達 256 時，準確率仍停留於 50%（隨機水準）；
• 引入輸入依賴且加入少量負特徵值後，準確率飆升至 98% 以上。

上述實驗數據可參考論文附錄表 2 與表 3（arXiv:2508.07395v1）。

落地實作與效能優化

針對需同時滿足輸入依賴與負特徵值的設計，可採以下實戰守則：

1. 動態轉移矩陣 Aₜ 欄位，使用小型全連接網路 f(uₜ) 產生參數化輸入依賴；
2. 強制對角化矩陣包含負實部，可於初始化時採用隨機正負混合分佈並列入正則化約束（L₂ 範數）；
3. 測試不同規格的 BatchNorm 或 LayerNorm，以穩定訓練過程中振盪模式；
4. 參考 S4D 官方部落格實測 Benchmark：https://github.com/HazyResearch/s4。

此外，建議在開發流程中結合 DevOps 自動化測試，定期驗證模型在長序列 Parity、Copy、Addition 等基準任務上的表現，以提早偵測狀態追蹤能力退化。

結語與未來方向

本文彙整最新理論與實測結果，確認狀態空間模型若要突破 Parity 這類狀態追蹤任務，必須同時滿足「輸入依賴」與「負特徵值」兩大條件。未來可朝向混合頻域–時域架構、非對角化正交矩陣等方向探索，以期在長序列與高頻振盪中獲得更穩定的表現。

歡迎加入交流與實作討論：https://www.okx.com/join?channelId=42974376