FLUID 核心架構
FLUID(Flow-Latent Unified Integration via Token Distillation)是一種針對多模態分類的全新管道。根據 arXiv:2508.07264v1(2025)預印本所述,FLUID 透過可學習的 Query Token(Q-transform)對影像與文本特徵進行蒸餾與整合,以提升跨模態一致性與抗噪能力。
Q-transform 特徵蒸餾
Q-transform 作為可學習的查詢向量,在前端模組中負責截取並保存來自 CNN 與 Transformer Backbone 的關鍵 token。根據論文實測,在 GLAMI-1M 資料集上,Q-transform 相較於單純拼接特徵減少了 30% 計算量,同時保持超過 90% 的分類準確度。這種設計不僅降低了內存佔用,也有效提升了推論延遲表現。
跨模態融合策略
FLUID 採用兩階段融合機制:第一階段透過對比學習對齊視覺與文本特徵(根據 ICLR 2024 報告),增強跨模態一致性;第二階段則以門控機制(Gating)和 Q-bottleneck 選擇性壓縮資訊,為下游推理提供更精簡的語義表示。此 Task-aware 的融合方式,能自動調整特徵流向,適配不同分類場景需求。
推論效能與擴展性
於預測階段,FLUID 引入負載均衡的 Mixture-of-Experts(MoE)架構,在雲端微服務部署時可動態分配模型專家實例,降低單節點運算瓶頸。根據實測結果,在 Kubernetes 容器化環境中,MoE 令 QPS(每秒請求數)提升 45%,平均延遲降低 20%。
實驗結果與應用
實驗顯示,FLUID 在 GLAMI-1M 基準測試中達到 91% 準確度,相較既有方法提升約 5 個百分點。對於含有 15% 標籤噪聲與長尾類別的不均衡場景,其性能衰減不超過 3%,展現出強韌的抗噪與長尾識別能力,適用於電商商品分類與內容審核等實務場景。
導入建議與實戰
在後端服務架構中,建議將 Q-transform 與融合模組封裝為獨立微服務,並透過 gRPC 或 REST API 與主流程整合;前端則可搭配 Model Pruning 和 INT8 量化以進一步降低推論延遲。根據 GDPR 規範,亦須在資料蒐集前後端先行脫敏,確保個資保護。
若想瞭解更多,歡迎加入 OKX 社群。