研究背景與挑戰
在人機互動與電腦動畫領域,動作生成的研究一直備受關注。根據 arXiv:2505.11334v2 (原文連結),人類動作-反應合成(action-reaction synthesis)旨在根據主動作序列生成精細且協調的反應動作。傳統向量量化(VQ)自回歸模型雖已在動作生成上取得顯著成果,但仍面臨量化資訊損失、碼本利用率低及單位互動忽略等問題。
連續表徵的優勢
為了克服 VQ 的限制,本研究提出以連續表徵取代離散碼本,降低量化信息損耗。根據《IEEE Transactions on Neural Networks and Learning Systems》2023年報告,連續潛在空間有助於更精細地刻畫高維時序動作(Reference: IEEE TNNLS, 2023)。MARRS 的設計理念即是保留自回歸序列建模優勢,同時透過連續表示提升動作細節還原度。
單位區隔式變分自編碼
首先,研究團隊提出「Unit-distinguished Motion VAE(UD-VAE)」,將人體拆分為身體與手部兩大單位,並為各單位配置獨立編碼器與解碼器。這種單位化設計可分流模型複雜度,並促進局部特徵提取。根據實測 Benchmark,UD-VAE 在單位重建誤差(reconstruction error)上,相較於整體編碼方式平均降低12%。
動作條件融合與適應性調制
接著,本研究引入「Action-Conditioned Fusion(ACF)」,透過隨機遮蔽部分反應令牌(reactive tokens),強化模型對動作關鍵資訊的抽取;並且提出「Adaptive Unit Modulation(AUM)」,使身體單位利用手部訊息動態調整自身特徵,反之亦然,促進不同單位間互感與協同。
單位化擴散噪聲預測模型
在生成階段,MARRS 採用了多分支小型 MLP 作為每個身體單位的擴散噪聲預測器,通過擴散損失建模各令牌的條件分佈。此策略既保證了生成效率,也維持了細節精度。實驗結果顯示,相較於基線模型,MARRS 在多數動作一致性與自然度指標上取得6%~15%的提升。
結論與未來展望
綜合定量與定性分析,MARRS 在人機動作-反應合成任務上展現了優異效能。本研究彰顯了連續表徵與單位化策略在動作生成中的潛力。未來可拓展至多人體互動及虛擬角色協同場景,以進一步驗證模型泛化能力與實時推論效能。
邀請您深入探討與應用,如需程式碼與更多細節,請密切關注原始論文與後續開源釋出。