問題背景與挑戰
在大型軟體專案開發流程中,Issue Localization(問題定位)是辨識需修改程式碼位置的關鍵環節,但也是最難的步驟之一。換言之,開發者需要透過自然語言描述與程式碼倉庫間的語意連結,執行跨檔案、多層依賴的複雜推理。根據 arXiv:2508.03012v2,這項任務被稱為 Repo Deep Search,要求大型語言模型(LLM)在多步推理中,持續有效地呼叫並結合多種倉庫檢索工具,以逐步鎖定問題函式或程式區段。
現有方法與限制
目前主流 LLM 代理人多半採用 Retrieval-Augmented Generation(RAG)架構,透過檔案索引器或向量資料庫取得相關程式碼片段後摺疊生成。雖然在文件檢索層面已有成熟方案,卻鮮少針對跨模組依賴與多步導航場景進行強化訓練。這種「一次性檢索→一次性生成」的流程,面對多跳依賴關係時常導致上下文遺失或誤導;而缺乏強化學習階段的介入,也難以讓模型學會在推理流程中動態選擇最適工具或調整檢索策略。
ToolTrain 訓練架構
為提升 LLM 深度倉庫檢索能力,作者提出 ToolTrain——一套結合拒絕採樣監督微調(Rejection-Sampled Supervised Fine-Tuning)與工具整合強化學習(Tool-Integrated Reinforcement Learning)的雙階段訓練框架。第一階段透過人類標註的「多步推理範例」,對模型進行監督式微調,並在生成結果偏離預期時採用拒絕採樣機制強化正確路徑。第二階段則引入環境(Environment)模擬呼叫各式檢索工具,如函式搜尋 API、跨模組依賴分析器等,並以回饋訊號(Reward)督促模型學習合理的導航與工具選擇策略。
實驗結果與基準比較
實驗採用開源大型程式碼庫與多語言開發專案,評估指標聚焦於函式層級定位 (Function-Level Localization) 以及端到端 Issue Resolution 準確率。根據論文作者經 測試資料所示,ToolTrain 在 32B 參數模型上達到超越 Claude-3.7 的定位效能:函式層級定位準確率提升 5.3%,而實際解決問題的最終成功率也較基線提高 4.1%。這項成果證明,強化訓練對 Repo Deep Search 有良好增益,而更精細的監督資料與工具介面設計,能進一步提升端到端開發流程的自動化程度。
實戰應用與開發流程優化
對於後端效能與開發流程優化而言,ToolTrain 表示組織可考慮以下落地建議:一、對既有 CI/CD 管道加入本地環境模擬服務,以模擬多工具呼叫;二、以 Project-Based Learning 的方式,彙整團隊常見的問題定位範例作為監督微調素材;三、持續蒐集模型執行決策與工具使用紀錄,作為強化學習迭代的回饋;四、結合量身打造的依賴分析器或 CodeQL 等靜態分析工具,強化工具介面的效能與準確率。這些做法可幫助 30~40 歲中階工程師快速掌握新框架,並將 Repo Deep Search 能力整合至日常開發中,降低跨團隊協作溝通成本。
結論與未來展望
綜合而言,ToolTrain 透過監督式與強化式混合訓練,實現 LLM 在複雜程式碼倉庫中的多步檢索與推理能力,並在多項指標上取得業界領先成績。未來可朝向更高參數量級模型、更多元工具生態,以及跨語言多框架的擴展應用,提升 Repo Deep Search 的普適性與效能。對於嚴謹追求開發效率與品質的科技團隊而言,深入理解並實踐此類工具整合訓練策略,將成為加速自動化軟體開發流程的關鍵推手。
邀請您體驗更多技術洞見:https://www.okx.com/join?channelId=42974376