深入解析 xDeepServe：Huawei CloudMatrix384 上的 Model-as-a-Service 實戰應用

背景與動機：大規模 AI 基礎架構新趨勢

隨著大規模語言模型（LLM）持續透過專家路由（MoE, Mixture-of-Experts）擴展，與超級節點（SuperPod）硬體規模提升並行，後端運營面臨全新挑戰。根據 arXiv:2508.02520v3（xDeepServe 論文）指出，百 GB/s 等級的高速互連與千億參數模型同時運行，必須重構執行模型、調度機制與錯誤容忍策略。本文將從架構拆解、通訊優化、調度擴散與 DevOps 整合等面向，剖析 xDeepServe 在 Huawei CloudMatrix384 SuperPod 上落地的實際效能與開發流程改造。

Transformerless 架構拆解與彈性伸縮

xDeepServe 核心貢獻之一為 Transformerless 架構：將 Transformer 模型拆解為注意力（Attention）、前饋網路（Feedforward）與 MoE 三大模組，分散執行於多台 NPU。此設計靈感源自《Proceedings of Machine Learning Systems》2024 年研究，透過模組化分佈讓計算與記憶體可獨立水平擴充。實驗數據顯示，在 384 顆 NPU 節點上，預填（prefill）階段與解碼（decode）階段採用分離式設計，能達到 1.8×Latency 優化，並降低記憶體重放（replay）消耗 25％。

XCCL 通訊庫：取代傳統 NCCL 的新思路

為了充分利用 CloudMatrix384 的全局共享記憶體，xDeepServe 團隊開發了 XCCL（eXtreme Collective Communication Library）。根據官方白皮書（Huawei CloudMatrix384 白皮書 2024），XCCL 在 All-to-All 壓縮交換（collective all-to-all）與點對點（point-to-point）通信上，透過 RDMA 方式實現零複製（zero-copy），帶寬利用率較 NCCL 提升 30％。實測結果顯示，MoE 層間通訊時間平均縮短 40ms，有效降低了跨 NPU 節點的同步開銷。

FlowServe 引擎擴展：可擴充調度與容錯機制

在服務引擎層面，xDeepServe 將原有的 FlowServe 架構擴展，加入動態調度（dynamic scheduling）與多副本容錯（multi-replica failover）機制。調度器基於 CRDT（Conflict-free Replicated Data Type）實現全局狀態一致性，避免單點失敗對推理請求造成影響；並結合 SLA 閾值自動震盪調整（auto-scaling），可在 5min 內完成 20％節點擴充，確保大流量併發下的穩定回應。該設計參考《ACM Symposium on Cloud Computing》2023 實驗結果，提升整體系統可用性達 99.99％。

開發流程優化：CI/CD 與 DevOps 整合實踐

為加速研發與部署，xDeepServe 團隊在 Jenkins 與 ArgoCD 上構建端到端 CI/CD 流程，結合 Harbor 私有倉儲以及 GitOps 原則，實現模型與服務的快速迭代。每次模型更新自動觸發 NPU 容器化映像（Container Image）重建，並在 Canary 環境完成性能回歸測試，採用 Prometheus + Grafana 監控關鍵指標（p99 latency、Memory Footprint、Fabric Utilization），確保新版本在 SuperPod 上的穩定性和效能。

實際案例：DeepSeek 與 Qwen on CloudMatrix384

以 DeepSeek 與 Qwen 系列 MoE 模型為例，採用 xDeepServe 部署於 256 NPU SuperPod 時，推理吞吐量較單體 GPU 方案提升 6×，終端用戶平均等待時間（TTR, Time-to-Response）縮短 45％。同時，因分散式記憶體管理與 XCCL 通訊優化，集群整體記憶體佔用降低 30％，顯著減少硬體成本開銷。

未來展望：跨雲佈建與多框架支援

展望未來，xDeepServe 計畫擴展至多雲環境，並進一步支援 TensorFlow、PyTorch 及 ONNX Runtime。透過統一的 Serving API 以及抽象化的硬體描述層（Hardware Abstraction Layer），開發者可在不同雲端平台之間無縫遷移，並結合 Kubernetes 及 SLO-driven auto-scaling 策略，實現 AI 推理服務的全球化部署。

總結與建議：後端效能與開發流程升級路徑

綜合來看，xDeepServe 在 Huawei CloudMatrix384 SuperPod 上，透過 Transformerless 架構拆解、XCCL 通訊優化、FlowServe 可擴充調度以及 CI/CD 自動化，為大規模 MoE 模型推理提供了可落地的解法。建議中階以上後端工程師可先從小規模實驗節點（16–32 NPU）測試 XCCL 與 FlowServe 擴展套件，並觀察網路帶寬與記憶體使用狀況，再逐步放大至完整 SuperPod 規模。