FedSurg EndoVis 2024：聯邦學習於闌尾炎手術視覺分類的突破

聯邦學習與手術視覺

在臨床影像 AI 應用中，手術視頻分類具有高度隱私與多中心分散特性。傳統集中式訓練需匯集患者數據，面臨合規與隱私風險。聯邦學習（Federated Learning, FL）允許各機構本地訓練模型，並透過安全聚合共享權重或梯度，維護數據主權與個資安全。FedSurg EndoVis 2024 挑戰正是首個專注「手術視覺分類」的 FL 基準考核，旨在評估現有方法在面對不同臨床中心影像多樣性和本地化需求下的表現。根據 arXiv:2510.04772v1 及官方白皮書，FedSurg 採用多中心 Appendix300 視頻數據集，專注闌尾炎（Appendicitis）炎症分期分類，為開拓醫療 AI 泛化與本地化調適策略提供了第一個系統化實驗平台。

FedSurg 挑戰整體架構

FedSurg EndoVis 2024 設計兩大任務：第一為「泛化任務」，測試模型在未見臨床中心數據上的離線預測能力；第二為「本地微調任務」，允許團隊將預訓練模型於目標中心數據集上進行少量迭代的本地更新。整體流程包含資料分片、安全通訊、聚合與評估。組織者提供初版 Appendix300，包括多中心來源、時間戳記標註與階段性炎症標籤，並制定 F1-score 與 Expected Cost（期望成本）為主要評估指標，同時透過引導式重取樣（bootstrap）與統計檢定保證排名穩定度。

核心技術路徑

參賽團隊多元策略包括：一．以 Transformer/Vision Transformer 為基礎的 Foundation Models，搭配 Linear Probing 進行高效微調；二．採用 Triplet Loss 進行度量學習（Metric Learning），提升類間距離分離度；三．比較多種 FL 聚合算法，如 FedAvg、FedMedian 與 FedSAM；四．應用 spatiotemporal 模型（例如 ViViT）融合時間維度信息；五．引入 Context-aware Preprocessing，執行動態 ROI 擷取與影像標準化。根據官方 Benchmark，Linear Probing 在小樣本本地調適展現優勢，而度量學習則強化類別不平衡下的分類魯棒性。

泛化與本地微調成效

在泛化任務中，各組別於未見中心的 F1-score 平均僅達 0.62，最高不超過 0.68，顯示跨中心影像分佈差異影響顯著。然而於本地微調任務，所有團隊通過 5 至 10 次本地迭代後，F1-score 平均躍升至 0.75 以上，最高組的 ViViT-based 模型更達 0.81。Expected Cost 下降幅度亦達 15%～20%。排名分析顯示，雖然微調後整體性能提升明顯，但不同聚合策略與初始權重選擇仍造成不穩定性，需透過 Bootstrapping 和 Mann–Whitney U 檢驗等統計方法評估排名可信度。

挑戰與核心洞察

FedSurg 結果揭示三大挑戰：一．模型對跨中心不平衡資料的敏感性；二．超參數調優成本高，且缺乏統一搜尋策略；三．時空信息與上下文前處理的重要性尚未充分挖掘。具體而言，類別不平衡導致器官炎症輕重訓練樣本差異過大，傳統交叉熵損失表現不佳；動態視圖切分與時間序列特徵則可提升對炎症演進的捕捉能力。此外，FedSAM 等自適應聚合方法在噪音梯度抑制上具潛力。本次挑戰為後續 imbalance-aware、adaptive 與 robust FL 方法奠定了基準。

未來研究與最佳實踐

基於 FedSurg 挑戰發現，我們建議：一．採用有損失重加權（Loss Re-weighting）或 Focal Loss 等不平衡處理技術；二．融合 spatiotemporal 模型（如 ViViT、TimeSformer）與時間軸注意力機制；三．導入差分隱私與安全多方計算強化協同訓練；四．優化聚合策略，如 FedAdam、FedProx 支援動態學習率和正則化；五．標準化前處理流程，包含多場景白平衡校正與動態 ROI 提取。這些實戰守則將幫助 30–40 歲工程師在臨床 AI 產線中快速部署與迭代，並為後續深造與職涯轉型提供技術指引。

結語與行動

FedSurg EndoVis 2024 為聯邦學習在手術視覺領域建立了首個公開基準，揭示了本地化個性化與全局穩健性之間的權衡。透過架構選擇、前處理與損失設計優化，未來醫療影像 AI 有望在隱私保護下實現更高泛化與可解釋性。歡迎持續關注並參與聯邦學習生態建設，共同推動智能醫療革新。邀請連結：https://www.okx.com/join?channelId=42974376