利用大規模非同步強化學習實現長序列代理搜尋 —— 以 ASearcher 為例解析

搜尋智慧的關鍵挑戰與現狀

近年來，大型語言模型（LLM）結合外部檢索工具取得顯著進展，可處理複雜且知識密集型的查詢。尤其是在開放網路海量資訊中，搜尋工具提供即時知識補充。然而，開源代理在面對「搜尋智慧」——也就是從模糊需求中拆解檢索策略、生成精準檢索指令、分析結果並進行深入探究的能力上，仍與專家水準存在差距。依據 arXiv:2508.07976v1（2025）指出，現有線上強化學習方法多受限於回合數（turn）<10，難以學習複雜的長期決策策略，並且在可擴展性、訓練效率與資料品質方面均有不足。

非同步大規模RL訓練架構

ASearcher 透過「Fully Asynchronous RL」訓練架構，解決多代理併發與長序列回合的效能瓶頸。主要設計包含：1. 分散式工作者（worker）不需同步收集回報，即時回傳策略更新；2. 中心參數伺服器（parameter server）使用 Lock-free 更新機制，減少鎖競爭延遲；3. 動態調整回合長度上限，可延伸至 40+ 回合、輸出 token 數超過 150k。此設計參考了 Mnih et al.（2016）在《Nature》提出的 A3C 架構，同時引入近期分布式 RL 最佳實踐，兼顧效率與擴充性。

Prompt 驅動的高質量QA資料生成

為確保訓練資料具挑戰性且接近真實查詢場景，ASearcher 引入 Prompt-based 生成流程：使用 32B 參數級別的 LLM 作為「QwQ-32B 代理」，在無需人工標註下自動合成多樣化且高難度的問答對（QAs）。根據官方 Github 倉庫（https://github.com/inclusionAI/ASearcher），該流程每日可生成數百萬條高質量問題，並經自動篩選模型回饋困難度，兼具廣度和深度，為後續強化學習提供關鍵資料支撐。

實測成效：xBench 與 GAIA 長序列提升

根據 arXiv:2508.07976v1 實驗結果，ASearcher 經 RL 微調後的 QwQ-32B 代理，在 xBench 與 GAIA 基準測試中分別取得 Avg@4 提升 46.7% 與 20.8%。其中，ASearcher-Web-QwQ 在無外部 LLM 輔助下，單模型便已達到 xBench 42.1、GAIA 52.8 的水準，顯著優於現有開源 32B 代理。此外，透過長序列（40+ 回合）、大規模樣本（百萬級）與非同步更新，訓練效率較傳統同步 RL 提升近 3 倍，有效降低雲端運算成本並縮短迭代週期。

工程師實戰建議與落地思考

對於 30–40 歲的中階後端或 AI 工程師，建議可從以下面向切入：1. 架構選型：採用非同步 Parameter Server 模式，善用 Kubernetes Horizontal Pod Autoscaler 進行彈性擴展；2. 資料管線：結合自動 QA 生成與資料品質篩選，參考最新自動化生成研究，提高樣本多樣性；3. 工具整合：在內部開發流程中引入長序列測試基準，模擬 20+ 回合使用者互動，及早發現遞迴查詢性能瓶頸；4. 成本控制：採用 Spot Instance（或 Preemptible VM）與參數伺服器分層存儲策略，優化雲端資源支出。

未來展望與開源資源

ASearcher 的成功展示了長序列代理搜尋的可行性，也啟發下一步研究：如何結合多模態訊息、進行跨文件溯源、以及在 GDPR 規範下加強用戶隱私保護。建議讀者可參考官方開源倉庫 (ASearcher GitHub)，並持續關注 arXiv 與 OpenAI 官方博客的最新進展，以便在自家產品或服務中快速實作並落地。最後，邀請加入我們的社群討論與技術分享：點此加入。