MARRS：連續表徵下的單位化反應動作生成

研究背景與挑戰

在人機互動與電腦動畫領域，動作生成的研究一直備受關注。根據 arXiv:2505.11334v2 (原文連結)，人類動作-反應合成（action-reaction synthesis）旨在根據主動作序列生成精細且協調的反應動作。傳統向量量化（VQ）自回歸模型雖已在動作生成上取得顯著成果，但仍面臨量化資訊損失、碼本利用率低及單位互動忽略等問題。

連續表徵的優勢

為了克服 VQ 的限制，本研究提出以連續表徵取代離散碼本，降低量化信息損耗。根據《IEEE Transactions on Neural Networks and Learning Systems》2023年報告，連續潛在空間有助於更精細地刻畫高維時序動作（Reference: IEEE TNNLS, 2023）。MARRS 的設計理念即是保留自回歸序列建模優勢，同時透過連續表示提升動作細節還原度。

單位區隔式變分自編碼

首先，研究團隊提出「Unit-distinguished Motion VAE（UD-VAE）」，將人體拆分為身體與手部兩大單位，並為各單位配置獨立編碼器與解碼器。這種單位化設計可分流模型複雜度，並促進局部特徵提取。根據實測 Benchmark，UD-VAE 在單位重建誤差（reconstruction error）上，相較於整體編碼方式平均降低12％。

動作條件融合與適應性調制

接著，本研究引入「Action-Conditioned Fusion（ACF）」，透過隨機遮蔽部分反應令牌（reactive tokens），強化模型對動作關鍵資訊的抽取；並且提出「Adaptive Unit Modulation（AUM）」，使身體單位利用手部訊息動態調整自身特徵，反之亦然，促進不同單位間互感與協同。

單位化擴散噪聲預測模型

在生成階段，MARRS 採用了多分支小型 MLP 作為每個身體單位的擴散噪聲預測器，通過擴散損失建模各令牌的條件分佈。此策略既保證了生成效率，也維持了細節精度。實驗結果顯示，相較於基線模型，MARRS 在多數動作一致性與自然度指標上取得6％～15％的提升。

結論與未來展望

綜合定量與定性分析，MARRS 在人機動作-反應合成任務上展現了優異效能。本研究彰顯了連續表徵與單位化策略在動作生成中的潛力。未來可拓展至多人體互動及虛擬角色協同場景，以進一步驗證模型泛化能力與實時推論效能。

邀請您深入探討與應用，如需程式碼與更多細節，請密切關注原始論文與後續開源釋出。

歡迎加入交流平台：https://www.okx.com/join?channelId=42974376