專業 LLM 密集檢索比較:Qwen2.5 7B 系列實戰評測

研究背景與動機

近年來,大型語言模型(LLMs)不僅在生成任務中表現亮眼,也被越來越多地應用於密集檢索(dense retrieval)場景。根據 arXiv:2507.03958v2(2025)指出,任務專門化可能影響檢索效能,但目前缺乏系統性比較。本文藉由八款 Qwen2.5 7B LLMs 的零樣本與監督式檢索實驗,深度剖析不同專業化對後端檢索效果的影響。

實驗設計與評測基準

我們挑選了包含基礎版(base)、指令調校(instruction-tuned)、程式碼/數學專用(code-specialized、math-specialized)、長推理(long reasoning)與視覺語言(vision-language)等八款 Qwen2.5 7B 模型。在零樣本階段,文字檢索使用 BEIR 基準(Thakur et al., 2021),程式碼檢索使用 CoIR 基準(Qi et al., 2023);監督式階段則於 MS MARCO(Nguyen et al., 2016)資料集上微調並評估。

無監督檢索成效分析

實驗結果顯示,程式碼專用模型與視覺語言模型在 CoIR 程式碼檢索任務中均優於傳統 BM25,MAP 提升達 4~6%,並在 BEIR 文字檢索中維持與基礎版相當的水準。惟數學專用(math-specialized)與長推理(long reasoning)模型在三種無監督場景皆有約 5% 的效能衰退,暗示數學推導與語義匹配之間存在架構衝突(根據 arXiv:2507.03958v2)。

監督式微調表現比較

於 MS MARCO 監督式微調後,基礎版、指令調校與程式碼/視覺語言模型均收斂至相仿的 NDCG@10 水準(約 0.45~0.48)。反觀數學專用與長推理模型,即便微調後仍落後約 0.03 分,顯示其初始專業化參數與特徵嵌入不易在語義檢索領域迴轉。

實戰落地與架構建議

從企業檢索服務角度,若目標涵蓋程式碼片段、文件與多模態資料,可優先部署程式碼專用或視覺語言 LLM 作為密集檢索器;反之需廣泛語義匹配時,可考慮指令調校或純基礎版 LLM。對於需兼顧數學推理的檢索場景,建議採用雙塔架構將專用向量與語義向量分開維護,並透過再排序(re-ranking)機制融合兩者優勢。

未來展望與技術趨勢

本研究發現跨領域專業化模型在通用檢索任務中具備潛力,未來可透過多階段蒸餾(multi-stage distillation)與跨模態融合架構,朝向統一檢索器(unified retriever)發展。此外,結合連續學習(continual learning)與增量更新,可在不斷變動的知識庫中維持檢索效能與模型新鮮度。

想深入交流更多生成式 AI 與檢索架構最佳化實戰經驗,歡迎點擊加入:點此邀請連結