ToolTrain：結合工具與強化學習的 Repo Deep Search 實踐

問題背景與挑戰

在大型軟體專案開發流程中，Issue Localization（問題定位）是辨識需修改程式碼位置的關鍵環節，但也是最難的步驟之一。換言之，開發者需要透過自然語言描述與程式碼倉庫間的語意連結，執行跨檔案、多層依賴的複雜推理。根據 arXiv:2508.03012v2，這項任務被稱為 Repo Deep Search，要求大型語言模型（LLM）在多步推理中，持續有效地呼叫並結合多種倉庫檢索工具，以逐步鎖定問題函式或程式區段。

現有方法與限制

目前主流 LLM 代理人多半採用 Retrieval-Augmented Generation（RAG）架構，透過檔案索引器或向量資料庫取得相關程式碼片段後摺疊生成。雖然在文件檢索層面已有成熟方案，卻鮮少針對跨模組依賴與多步導航場景進行強化訓練。這種「一次性檢索→一次性生成」的流程，面對多跳依賴關係時常導致上下文遺失或誤導；而缺乏強化學習階段的介入，也難以讓模型學會在推理流程中動態選擇最適工具或調整檢索策略。

ToolTrain 訓練架構

為提升 LLM 深度倉庫檢索能力，作者提出 ToolTrain——一套結合拒絕採樣監督微調（Rejection-Sampled Supervised Fine-Tuning）與工具整合強化學習（Tool-Integrated Reinforcement Learning）的雙階段訓練框架。第一階段透過人類標註的「多步推理範例」，對模型進行監督式微調，並在生成結果偏離預期時採用拒絕採樣機制強化正確路徑。第二階段則引入環境（Environment）模擬呼叫各式檢索工具，如函式搜尋 API、跨模組依賴分析器等，並以回饋訊號（Reward）督促模型學習合理的導航與工具選擇策略。

實驗結果與基準比較

實驗採用開源大型程式碼庫與多語言開發專案，評估指標聚焦於函式層級定位 (Function-Level Localization) 以及端到端 Issue Resolution 準確率。根據論文作者經測試資料所示，ToolTrain 在 32B 參數模型上達到超越 Claude-3.7 的定位效能：函式層級定位準確率提升 5.3％，而實際解決問題的最終成功率也較基線提高 4.1％。這項成果證明，強化訓練對 Repo Deep Search 有良好增益，而更精細的監督資料與工具介面設計，能進一步提升端到端開發流程的自動化程度。

實戰應用與開發流程優化

對於後端效能與開發流程優化而言，ToolTrain 表示組織可考慮以下落地建議：一、對既有 CI/CD 管道加入本地環境模擬服務，以模擬多工具呼叫；二、以 Project-Based Learning 的方式，彙整團隊常見的問題定位範例作為監督微調素材；三、持續蒐集模型執行決策與工具使用紀錄，作為強化學習迭代的回饋；四、結合量身打造的依賴分析器或 CodeQL 等靜態分析工具，強化工具介面的效能與準確率。這些做法可幫助 30～40 歲中階工程師快速掌握新框架，並將 Repo Deep Search 能力整合至日常開發中，降低跨團隊協作溝通成本。

結論與未來展望

綜合而言，ToolTrain 透過監督式與強化式混合訓練，實現 LLM 在複雜程式碼倉庫中的多步檢索與推理能力，並在多項指標上取得業界領先成績。未來可朝向更高參數量級模型、更多元工具生態，以及跨語言多框架的擴展應用，提升 Repo Deep Search 的普適性與效能。對於嚴謹追求開發效率與品質的科技團隊而言，深入理解並實踐此類工具整合訓練策略，將成為加速自動化軟體開發流程的關鍵推手。

邀請您體驗更多技術洞見：https://www.okx.com/join?channelId=42974376