Posted inNEWS
Small-Large Collaboration:高效概念個性化下的大型視覺語言模型應用實踐
小模型個性化的挑戰與機遇在個性化視覺語言模型(VLM)的研究中,小型模型因輕量化與開源特性,易於微調與部署,但在多模態推理與複雜語義理解上往往力有未逮。相較之下,大型 VLM 擁有卓越的推理能力與豐富參數空間,卻因訓練與微調成本極高,且多以封閉 API 方式提供服務,限制了直接個性化的可行性。根據 arXiv:2508.07260v1,新興的 Small-Large Collaboration(SLC)架構,即結合兩者長處,提供一條兼顧訓練效率與高階推理的可落地路徑。SLC 框架核心:小模型生成, 大模型整合SLC 將個性化資訊交由小型 VLM(Meta Personalized Small VLM)生成,再經由大型 VLM 進行最終回應。流程分為兩階段:第一階段在用戶側對小模型進行微調,生成符合個人偏好的知識片段;第二階段在推理時,透過測試時反思(Test-time Reflection)策略,將小模型輸出的內容與大型 VLM 的 chain-of-thought 結合,避免小模型的幻覺(hallucination)並強化答題品質。此方法不僅無需修改大型 VLM 本身,更支援封閉/開源模型同步應用,符合開源授權與企業資訊安全要求。後端效能:訓練與推理成本優化根據作者提供的 Benchmark,僅需在小模型端進行少量參數微調,相較於全模型微調可降低 80% 以上的 GPU 時間與記憶體使用(來源:arXiv:2508.07260v1)。此外,測試時反思策略不會額外調用大型模型多輪微調,推理延遲維持在 100~200…