FLUID：基於 Token 蒸餾的多模態融合架構

FLUID 核心架構

FLUID（Flow-Latent Unified Integration via Token Distillation）是一種針對多模態分類的全新管道。根據 arXiv:2508.07264v1（2025）預印本所述，FLUID 透過可學習的 Query Token（Q-transform）對影像與文本特徵進行蒸餾與整合，以提升跨模態一致性與抗噪能力。

Q-transform 特徵蒸餾

Q-transform 作為可學習的查詢向量，在前端模組中負責截取並保存來自 CNN 與 Transformer Backbone 的關鍵 token。根據論文實測，在 GLAMI-1M 資料集上，Q-transform 相較於單純拼接特徵減少了 30％計算量，同時保持超過 90％的分類準確度。這種設計不僅降低了內存佔用，也有效提升了推論延遲表現。

跨模態融合策略

FLUID 採用兩階段融合機制：第一階段透過對比學習對齊視覺與文本特徵（根據 ICLR 2024 報告），增強跨模態一致性；第二階段則以門控機制（Gating）和 Q-bottleneck 選擇性壓縮資訊，為下游推理提供更精簡的語義表示。此 Task-aware 的融合方式，能自動調整特徵流向，適配不同分類場景需求。

推論效能與擴展性

於預測階段，FLUID 引入負載均衡的 Mixture-of-Experts（MoE）架構，在雲端微服務部署時可動態分配模型專家實例，降低單節點運算瓶頸。根據實測結果，在 Kubernetes 容器化環境中，MoE 令 QPS（每秒請求數）提升 45％，平均延遲降低 20％。

實驗結果與應用

實驗顯示，FLUID 在 GLAMI-1M 基準測試中達到 91％準確度，相較既有方法提升約 5 個百分點。對於含有 15％標籤噪聲與長尾類別的不均衡場景，其性能衰減不超過 3％，展現出強韌的抗噪與長尾識別能力，適用於電商商品分類與內容審核等實務場景。

導入建議與實戰

在後端服務架構中，建議將 Q-transform 與融合模組封裝為獨立微服務，並透過 gRPC 或 REST API 與主流程整合；前端則可搭配 Model Pruning 和 INT8 量化以進一步降低推論延遲。根據 GDPR 規範，亦須在資料蒐集前後端先行脫敏，確保個資保護。

若想瞭解更多，歡迎加入 OKX 社群。