Posted inNEWS
MultiHuman-Testbench:多人體影像生成的效能與體驗評測
多人體影像生成困境生成含有多位人物、複雜動作且維持臉部身份一致性的影像,一直以來是圖像生成研究的難題。根據 arXiv:2506.20879v2 〈MultiHuman-Testbench〉論文指出,現有模型缺乏專屬基準,難以量化比較多人體場景的生成品質。缺少統一標杆,不僅影響新演算法的評估,也阻礙產業將先進技術落地於廣告、電影特效與虛擬實境等領域。MultiHuman-Testbench 架構為了填補此空缺,Qualcomm AI Research 團隊提出 MultiHuman-Testbench,收錄 1,800 組文本提示(prompts),搭配來自 5,550 張人臉影像,均勻涵蓋年齡、性別與種族多樣性。每組樣本同時提供對應動作的姿態條件圖(pose conditioning),可作為區域先驗(regional priors),並以 GitHub 資料庫(https://github.com/Qualcomm-AI-research/MultiHuman-Testbench)公開數據與評測程式。核心評測指標介紹該基準整合四大指標:人臉計數 (face count)、身份相似度 (ID similarity)、提示對齊度 (prompt alignment) 與動作檢測 (action detection)。其中,身份相似度採用人臉辨識模型進行歐式距離度量;動作檢測則透過預訓練姿態估計器判斷模型輸出與提示動作的相符程度。根據論文實驗,新引入的分割隔離 (segmentation isolation) 與匈牙利演算法 (Hungarian matching)…