研究背景與動機 近年來,大型語言模型(LLMs)不僅在生成任務中表現亮眼,也被越來越多地應用於密集檢索(dense retrieval)場景。根據 arXiv:2507.03958v2(2025)指出,任務專門化可能影響檢索效能,但目前缺乏系統性比較。本文藉由八款 Qwen2.5 7B LLMs 的零樣本與監督式檢索實驗,深度剖析不同專業化對後端檢索效果的影響。 實驗設計與評測基準 我們挑選了包含基礎版(base)、指令調校(instruction-tuned)、程式碼/數學專用(code-specialized、math-specialized)、長推理(long reasoning)與視覺語言(vision-language)等八款 Qwen2.5 7B 模型。在零樣本階段,文字檢索使用 BEIR 基準(Thakur et al., 2021),程式碼檢索使用 CoIR 基準(Qi et al., 2023);監督式階段則於 MS MARCO(Nguyen et al., 2016)資料集上微調並評估。 無監督檢索成效分析…
Posted by
Ray 阿瑞