AR-GRPO 簡介AR-GRPO(Autoregressive Group Relative Policy Optimization)是一種將線上強化學習(Reinforcement Learning, RL)技術整合進自回歸(Autoregressive, AR)影像生成模型的創新方法。根據 arXiv:2508.06924v1 [1],此方法透過精心設計的獎勵函數,從多重品質維度(包括感知質量、真實度與語義一致性)對生成影像進行優化,顯著提升標準 AR Baseline 的輸出品質與人類偏好度。RL 優化動機傳統 AR 影像生成模型(如 PixelRNN、PixelCNN)多依賴最大概似估計(MLE)進行訓練,雖然可獲得穩定收斂,但在高解析度或複雜場景下常難以兼顧真實感與語義一致性。借鑑 LLM 端的 RLHF(Reinforcement Learning from Human Feedback)實踐,AR-GRPO 採用群體相對策略優化(Group Relative Policy Optimization, GRPO)算法,通過強化學習對輸出策略進行微調,以多維度指標改進影像品質與多樣性。技術細節與流程AR-GRPO…
Posted by
Ray 阿瑞