Posted inNEWS
ToolTrain:結合工具與強化學習的 Repo Deep Search 實踐
問題背景與挑戰在大型軟體專案開發流程中,Issue Localization(問題定位)是辨識需修改程式碼位置的關鍵環節,但也是最難的步驟之一。換言之,開發者需要透過自然語言描述與程式碼倉庫間的語意連結,執行跨檔案、多層依賴的複雜推理。根據 arXiv:2508.03012v2,這項任務被稱為 Repo Deep Search,要求大型語言模型(LLM)在多步推理中,持續有效地呼叫並結合多種倉庫檢索工具,以逐步鎖定問題函式或程式區段。現有方法與限制目前主流 LLM 代理人多半採用 Retrieval-Augmented Generation(RAG)架構,透過檔案索引器或向量資料庫取得相關程式碼片段後摺疊生成。雖然在文件檢索層面已有成熟方案,卻鮮少針對跨模組依賴與多步導航場景進行強化訓練。這種「一次性檢索→一次性生成」的流程,面對多跳依賴關係時常導致上下文遺失或誤導;而缺乏強化學習階段的介入,也難以讓模型學會在推理流程中動態選擇最適工具或調整檢索策略。ToolTrain 訓練架構為提升 LLM 深度倉庫檢索能力,作者提出 ToolTrain——一套結合拒絕採樣監督微調(Rejection-Sampled Supervised Fine-Tuning)與工具整合強化學習(Tool-Integrated Reinforcement Learning)的雙階段訓練框架。第一階段透過人類標註的「多步推理範例」,對模型進行監督式微調,並在生成結果偏離預期時採用拒絕採樣機制強化正確路徑。第二階段則引入環境(Environment)模擬呼叫各式檢索工具,如函式搜尋 API、跨模組依賴分析器等,並以回饋訊號(Reward)督促模型學習合理的導航與工具選擇策略。實驗結果與基準比較實驗採用開源大型程式碼庫與多語言開發專案,評估指標聚焦於函式層級定位 (Function-Level Localization) 以及端到端 Issue Resolution 準確率。根據論文作者經 測試資料所示,ToolTrain 在 32B 參數模型上達到超越 Claude-3.7…