利用大規模非同步強化學習實現長序列代理搜尋 —— 以 ASearcher 為例解析

搜尋智慧的關鍵挑戰與現狀

近年來,大型語言模型(LLM)結合外部檢索工具取得顯著進展,可處理複雜且知識密集型的查詢。尤其是在開放網路海量資訊中,搜尋工具提供即時知識補充。然而,開源代理在面對「搜尋智慧」——也就是從模糊需求中拆解檢索策略、生成精準檢索指令、分析結果並進行深入探究的能力上,仍與專家水準存在差距。依據 arXiv:2508.07976v1(2025)指出,現有線上強化學習方法多受限於回合數(turn)<10,難以學習複雜的長期決策策略,並且在可擴展性、訓練效率與資料品質方面均有不足。

非同步大規模RL訓練架構

ASearcher 透過「Fully Asynchronous RL」訓練架構,解決多代理併發與長序列回合的效能瓶頸。主要設計包含:1. 分散式工作者(worker)不需同步收集回報,即時回傳策略更新;2. 中心參數伺服器(parameter server)使用 Lock-free 更新機制,減少鎖競爭延遲;3. 動態調整回合長度上限,可延伸至 40+ 回合、輸出 token 數超過 150k。此設計參考了 Mnih et al.(2016)在《Nature》提出的 A3C 架構,同時引入近期分布式 RL 最佳實踐,兼顧效率與擴充性。

Prompt 驅動的高質量QA資料生成

為確保訓練資料具挑戰性且接近真實查詢場景,ASearcher 引入 Prompt-based 生成流程:使用 32B 參數級別的 LLM 作為「QwQ-32B 代理」,在無需人工標註下自動合成多樣化且高難度的問答對(QAs)。根據官方 Github 倉庫(https://github.com/inclusionAI/ASearcher),該流程每日可生成數百萬條高質量問題,並經自動篩選模型回饋困難度,兼具廣度和深度,為後續強化學習提供關鍵資料支撐。

實測成效:xBench 與 GAIA 長序列提升

根據 arXiv:2508.07976v1 實驗結果,ASearcher 經 RL 微調後的 QwQ-32B 代理,在 xBench 與 GAIA 基準測試中分別取得 Avg@4 提升 46.7% 與 20.8%。其中,ASearcher-Web-QwQ 在無外部 LLM 輔助下,單模型便已達到 xBench 42.1、GAIA 52.8 的水準,顯著優於現有開源 32B 代理。此外,透過長序列(40+ 回合)、大規模樣本(百萬級)與非同步更新,訓練效率較傳統同步 RL 提升近 3 倍,有效降低雲端運算成本並縮短迭代週期。

工程師實戰建議與落地思考

對於 30–40 歲的中階後端或 AI 工程師,建議可從以下面向切入:1. 架構選型:採用非同步 Parameter Server 模式,善用 Kubernetes Horizontal Pod Autoscaler 進行彈性擴展;2. 資料管線:結合自動 QA 生成與資料品質篩選,參考 最新自動化生成研究,提高樣本多樣性;3. 工具整合:在內部開發流程中引入長序列測試基準,模擬 20+ 回合使用者互動,及早發現遞迴查詢性能瓶頸;4. 成本控制:採用 Spot Instance(或 Preemptible VM)與參數伺服器分層存儲策略,優化雲端資源支出。

未來展望與開源資源

ASearcher 的成功展示了長序列代理搜尋的可行性,也啟發下一步研究:如何結合多模態訊息、進行跨文件溯源、以及在 GDPR 規範下加強用戶隱私保護。建議讀者可參考官方開源倉庫 (ASearcher GitHub),並持續關注 arXiv 與 OpenAI 官方博客的最新進展,以便在自家產品或服務中快速實作並落地。最後,邀請加入我們的社群討論與技術分享:點此加入