Posted inNEWS
Selective Contrastive Learning 在弱監督 Affordance 地標的實戰應用
WSAG 挑戰與應用背景弱監督 Affordance 地標(WSAG)旨在模擬人類從第三人稱示範直覺學習功能性部位的能力,卻無需像素級標註。根據 arXiv:2508.07877v1(2025)指出,傳統方法多以共享分類器與蒸餾策略挖掘部件,卻往往鎖定與 Affordance 無關的類別特徵,導致活化圖集中於背景或常見模式,難以精準定位能互動的區域。選擇性原型對比學習為了超越孤立部件學習,本方法引入「選擇性原型對比」(Selective Prototypical Contrastive) 目標,針對已知物件層級訊息(eg: exocentric 視角),動態生成正負原型 。依據《IEEE TPAMI》2023 年對比學習調研,原型對比可穩定聚焦於類別內公因子,本研究進一步篩選與操作意圖相關之原型,抑制無關特徵干擾。像素層級對比擴充對於精細部位定位,論文同時採用「選擇性像素對比」(Selective Pixel Contrastive) 機制:在物件前景範圍內,將活化最高的候選區域視為正樣本,背景或與 Affordance 不符的區域視為負樣本。此策略與《CVPR 2024》對比學習架構一致,能有效將激活熱圖從雜訊背景轉移至功能性部件。多視角 CLIP 物件檢測論文利用 CLIP(Radford et al., 2021)做為跨視角物件指認引擎。首先在 egocentric(第一人稱)和 exocentric(第三人稱)影像中識別動作相關物件,再透過互補視角交叉參照,定位兩種視角下最精準的部件線索。此整合方式兼顧兩種視角的特徵互補性,可在無需標註的條件下挖掘潛在 Affordance…


