JointTuner：外觀-動作自適應聯合訓練在客製化視頻生成的實踐

Contents hide

技術背景與挑戰

隨著客製化視頻生成需求增長，出現同時適配外觀與動作的訓練方法。早期多數研究選擇分階段優化（appearance first, motion next），但常引發概念干擾，導致靜態外觀渲染失真或動作模式表現不準確。此外，背景與前景要素相互污染（appearance contamination）使主體專屬特徵模糊。根據 arXiv:2503.23951v2，我們亟需一種可同時優化空間與時間維度的協同模型。

Synaptic LoRA 實現機制

JointTuner 首創 Synaptic Low-Rank Adaptation（Synaptic LoRA），內嵌「突觸調控器」（synaptic regulator）。此調控器為一層具上下文感知能力的線性激活模組，能在訓練中動態分配 LoRA 權重，決定當前步聚應聚焦主體外觀或動作模式。實驗採用 ZeroScope（UNet 架構）與 CogVideoX（Diffusion Transformer 架構），結果顯示 Synaptic LoRA 在空間細節與時間一致性上皆優於原始 LoRA（參見官方 GitHub benchmark）。

AiT Loss 對動作學習的優化

為了進一步降低外觀干擾，JointTuner 引入 Appearance-independent Temporal Loss（AiT Loss）。AiT Loss 在反向傳播時切斷與外觀相關參數的梯度流，迫使網路將更新重心放在動作學習上。根據 arXiv 作者所述，此方法能在不犧牲外觀品質前提下，加速動作模態收斂，並提升關鍵幀動態連貫度。

系統化評估與 Benchmark

我們提出一套 90 組合的綜合評估框架，涵蓋語義對齊（semantic alignment）、動作活躍度（motion dynamism）、時間一致性（temporal consistency）與主觀感知質量（perceptual quality）四大維度。實驗基於 UCF-101 及自建客製化數據集，對比多種 LoRA 及階段式訓練方案，結果顯示 JointTuner 整體得分提升 12% 以上，動作動態與時間連貫性指標均達到領先地位（詳見官方專案網頁）。

應用場景與未來展望

JointTuner 可無縫整合各類 UNet 及 Transformer 生成模型，支持長時段高畫質客製化視頻製作。未來可結合大規模預訓練模型與提示工程（Prompt Engineering），並進行多模態融合，以應對影視製作、虛擬人直播與 NFT 影片等應用需求。此外，可探索將 AiT Loss 與強化學習策略結合，以持續優化時間動態表現。

邀請連結：https://www.okx.com/join?channelId=42974376