MoE 模型的記憶體挑戰
隨著多專家(Mixture-of-Experts, MoE)架構在大規模語言模型(LLM)中獲得顯著成效,模型參數量已擴展至兆級別,使得顯示記憶體(HBM)需求極大。根據 arXiv:2508.06978v1 的研究,MoE 模型在推理階段需動態載入專家權重,導致記憶體使用量急遽升高。對於雲端服務供應商或邊緣推理平台而言,HBM 容量與成本限制成為關鍵瓶頸,促使業界探索將部分權重卸載至高密度但延遲與能耗較高的 SSD 等存儲介質。
SSD 卸載方案概述
SSD 卸載透過將少數不常訪問或稀疏啟用的專家權重從 HBM 移至 Flash 存儲,期望以更低成本與更大容量換取可接受的性能與延遲。此思路已被多家雲端供應商及研究團隊採用,並搭配預取(prefetching)機制,以遮蔽存取延遲。然而,儘管 SSD 在每 GB 成本與容量上具優勢,其讀取能耗卻遠高於 DRAM 與 HBM,帶來新的能效挑戰。
量化能耗差異實測
根據 《arXiv:2508.06978v1》分析,研究團隊比較了三種記憶體場景——HBM、DDR 以及商業 PCIe SSD——在 DeepSeek-R1 類 MoE 模型推理中,測量每 Token 產生所需的能源消耗。結果顯示,SSD 卸載情境下,能耗較 HBM 基線高出約 10.9 至 12.3 倍,且佔整體推理能耗的主要部分。相較之下,使用 DDR 的能耗增幅僅在 2 倍左右(根據測試環境與模型稀疏度而異)。此數據佐證了 Flash 存取在隨機讀取稀疏權重時的高能耗特性。
預取技術無法解決能耗根本
為減緩 SSD 存取延遲,研究採用了預取機制及多重緩衝區管理,使得推理延遲可與 DDR 相近。但根據實測,預取僅能降低 I/O 等待時間,卻無法改變 Flash 單位位元讀取的高能耗天性。研究顯示,預取後的總能耗仍以 SSD 層面為主,並未有效削減整體推理電力開銷。因此,若不改善儲存介質的能效數值,MoE 權重卸載至 SSD 的方案難以達到「成本與能效兼顧」的目標。
未來技術與硬體展望
論文進一步探討了未來 Flash 技術發展的可能性。基於 MoE 模型在執行時的高稀疏度特性,若 Flash 讀取能耗能夠較現有水平降低約 10 倍,則 SSD 作為輔助記憶體將具有能效競爭力。這需要新一代非揮發性記憶體(如 MRAM 或 PCRAM)的進步,或透過先進製程降低單位讀取能耗。研究也指出,硬體-軟體協同設計(包括更細粒度的稀疏訪問排程與低電壓工作模式)亦是提升能效的關鍵方向。
工程實踐建議
基於以上觀測,以下是面向中階至資深工程師的幾點實戰建議:
- 優先評估 HBM/DDR 組合:在預算允許範圍內,盡量以 HBM 為主,DDR 作為備援,以在延遲與能耗間取得平衡。
- 分層緩存策略:對於經常訪問的熱門專家權重,保持在快速記憶體,僅將低頻專家卸載至低能耗且高容量的儲存層。
- 軟體稀疏掃描優化:藉由提前分析 MoE 啟用稀疏模式,動態調整預取 window 大小與 I/O 批次,減少不必要的 Flash 存取。
- 持續關注硬體新選項:密切追蹤 MRAM、ReRAM 等新型非揮發性記憶體在能效與容量領域的最新進展。
- Benchmark 定期評估:依據不同模型、稀疏度與工作負載,定期更新能耗與延遲 Benchmark,形成可量化的硬體選型流程。
透過以上策略,工程師可在當下硬體條件下,將 MoE 模型推理能耗控制在合理範圍,並為未來新興記憶體技術做足準備。歡迎參考更多細節與數據:arXiv:2508.06978v1,提升開發效率與運營能效。
邀請加入 OKX 社群:https://www.okx.com/join?channelId=42974376