Posted inNEWS
PiT:進階 Diffusion Transformer 架構與效能優化實戰
引言:Diffusion Transformer 新挑戰 隨著生成式影像模型的快速發展,Diffusion Transformers(DiTs)以其優異的視覺品質獲得廣泛關注。然而,根據 arXiv:2505.13219v3(2024)報告,傳統 DiTs 使用多層等維度全域自注意力(Global Attention),導致計算量呈二次方級增長,難以滿足高解析推理需求。本文將從架構設計、效能優化和實際部署角度,剖析最新提出的 PiT(Pseudo Progressive Diffusion Transformer)技術,並結合實測數據和業界經驗,提供可落地的效能優化策略。 PSWA:緩解全域注意力冗餘 根據 PiT 作者團隊在 arXiv:2505.13219v3 中的說明,Pseudo Shifted Window Attention(PSWA)透過分割視窗注意力(Window Attention)取代部分全域運算,顯著降低了注意力矩陣的計算成本。同時,PSWA 在額外引入的高頻橋接分支(High-frequency Bridging Branch)中,以類似 Shifted Window 的方式加強窗口間連通,補足純視窗注意力對低頻位姿信息的不利影響。該機制不僅保留了局部細節,也維持了跨窗口的上下文一致性。 PCCA:零額外成本的高階注意力…