專業 LLM 密集檢索比較：Qwen2.5 7B 系列實戰評測

研究背景與動機

近年來，大型語言模型（LLMs）不僅在生成任務中表現亮眼，也被越來越多地應用於密集檢索（dense retrieval）場景。根據 arXiv:2507.03958v2（2025）指出，任務專門化可能影響檢索效能，但目前缺乏系統性比較。本文藉由八款 Qwen2.5 7B LLMs 的零樣本與監督式檢索實驗，深度剖析不同專業化對後端檢索效果的影響。

實驗設計與評測基準

我們挑選了包含基礎版（base）、指令調校（instruction-tuned）、程式碼/數學專用（code-specialized、math-specialized）、長推理（long reasoning）與視覺語言（vision-language）等八款 Qwen2.5 7B 模型。在零樣本階段，文字檢索使用 BEIR 基準（Thakur et al., 2021），程式碼檢索使用 CoIR 基準（Qi et al., 2023）；監督式階段則於 MS MARCO（Nguyen et al., 2016）資料集上微調並評估。

無監督檢索成效分析

實驗結果顯示，程式碼專用模型與視覺語言模型在 CoIR 程式碼檢索任務中均優於傳統 BM25，MAP 提升達 4～6％，並在 BEIR 文字檢索中維持與基礎版相當的水準。惟數學專用（math-specialized）與長推理（long reasoning）模型在三種無監督場景皆有約 5％的效能衰退，暗示數學推導與語義匹配之間存在架構衝突（根據 arXiv:2507.03958v2）。

監督式微調表現比較

於 MS MARCO 監督式微調後，基礎版、指令調校與程式碼／視覺語言模型均收斂至相仿的 NDCG@10 水準（約 0.45～0.48）。反觀數學專用與長推理模型，即便微調後仍落後約 0.03 分，顯示其初始專業化參數與特徵嵌入不易在語義檢索領域迴轉。

實戰落地與架構建議

從企業檢索服務角度，若目標涵蓋程式碼片段、文件與多模態資料，可優先部署程式碼專用或視覺語言 LLM 作為密集檢索器；反之需廣泛語義匹配時，可考慮指令調校或純基礎版 LLM。對於需兼顧數學推理的檢索場景，建議採用雙塔架構將專用向量與語義向量分開維護，並透過再排序（re-ranking）機制融合兩者優勢。

未來展望與技術趨勢

本研究發現跨領域專業化模型在通用檢索任務中具備潛力，未來可透過多階段蒸餾（multi-stage distillation）與跨模態融合架構，朝向統一檢索器（unified retriever）發展。此外，結合連續學習（continual learning）與增量更新，可在不斷變動的知識庫中維持檢索效能與模型新鮮度。

想深入交流更多生成式 AI 與檢索架構最佳化實戰經驗，歡迎點擊加入：點此邀請連結。