背景與挑戰:非均勻剪枝的瓶頸隨著大型語言模型(Large Language Models, LLM)規模持續攀升,模型部署時面臨的記憶體佔用、延遲與成本壓力日益增加。結構化剪枝(structured pruning)透過移除冗餘通道或層,能在模型效能衰減可控的前提下降低參數量。然而,根據《arXiv》2508.02381v2(2025)指出,現行非均勻剪枝方法常仰賴人工設計的剪枝策略(例如層級重要性評估、比例縮放因子),對於動態剪枝比率需求的場景適應性不足。此外,剪枝策略評估耗時(測試集驗證需時 1 分 38.02 秒)成為迭代優化的主要瓶頸。PPF 架構核心:智能代理與二層預測為解決上述痛點,PPF(Predictive Pruning Framework)提出「智能代理+性能預測器」的二層架構:智能代理(agent)負責在給定動態剪枝比率下,產生自適應剪枝決策;輕量性能預測器則以二層預測(second-level prediction)方式,僅需秒級時間即可評估候選策略對模型困惑度(perplexity)的影響。根據論文實驗,性能預測誤差低於 0.0011,相比傳統測試集驗證平均耗時下降 64 倍以上。性能預測器:黑盒評估秒級響應PPF 的性能預測器基於少量剪枝後子模型樣本,利用回歸或輕量神經網路(如多層感知機)預測整體模型困惑度。其設計理念與先前《Rethinking Structured Pruning for Efficient Language Model Inference》(2023)所提「代理評估機制」相似,但 PPF 首度將預測時間優化至 1.52 秒,並透過貝葉斯優化(Bayesian Optimization)迭代策略空間。根據論文附錄 Benchmark,對…
Posted by
Ray 阿瑞