研究背景與挑戰在人機互動與電腦動畫領域,動作生成的研究一直備受關注。根據 arXiv:2505.11334v2 (原文連結),人類動作-反應合成(action-reaction synthesis)旨在根據主動作序列生成精細且協調的反應動作。傳統向量量化(VQ)自回歸模型雖已在動作生成上取得顯著成果,但仍面臨量化資訊損失、碼本利用率低及單位互動忽略等問題。 連續表徵的優勢為了克服 VQ 的限制,本研究提出以連續表徵取代離散碼本,降低量化信息損耗。根據《IEEE Transactions on Neural Networks and Learning Systems》2023年報告,連續潛在空間有助於更精細地刻畫高維時序動作(Reference: IEEE TNNLS, 2023)。MARRS 的設計理念即是保留自回歸序列建模優勢,同時透過連續表示提升動作細節還原度。 單位區隔式變分自編碼首先,研究團隊提出「Unit-distinguished Motion VAE(UD-VAE)」,將人體拆分為身體與手部兩大單位,並為各單位配置獨立編碼器與解碼器。這種單位化設計可分流模型複雜度,並促進局部特徵提取。根據實測 Benchmark,UD-VAE 在單位重建誤差(reconstruction error)上,相較於整體編碼方式平均降低12%。 動作條件融合與適應性調制接著,本研究引入「Action-Conditioned Fusion(ACF)」,透過隨機遮蔽部分反應令牌(reactive tokens),強化模型對動作關鍵資訊的抽取;並且提出「Adaptive Unit Modulation(AUM)」,使身體單位利用手部訊息動態調整自身特徵,反之亦然,促進不同單位間互感與協同。 單位化擴散噪聲預測模型在生成階段,MARRS…
Posted by
Ray 阿瑞