Selective Contrastive Learning 在弱監督 Affordance 地標的實戰應用

WSAG 挑戰與應用背景

弱監督 Affordance 地標(WSAG)旨在模擬人類從第三人稱示範直覺學習功能性部位的能力,卻無需像素級標註。根據 arXiv:2508.07877v1(2025)指出,傳統方法多以共享分類器與蒸餾策略挖掘部件,卻往往鎖定與 Affordance 無關的類別特徵,導致活化圖集中於背景或常見模式,難以精準定位能互動的區域。

選擇性原型對比學習

為了超越孤立部件學習,本方法引入「選擇性原型對比」(Selective Prototypical Contrastive) 目標,針對已知物件層級訊息(eg: exocentric 視角),動態生成正負原型 。依據《IEEE TPAMI》2023 年對比學習調研,原型對比可穩定聚焦於類別內公因子,本研究進一步篩選與操作意圖相關之原型,抑制無關特徵干擾。

像素層級對比擴充

對於精細部位定位,論文同時採用「選擇性像素對比」(Selective Pixel Contrastive) 機制:在物件前景範圍內,將活化最高的候選區域視為正樣本,背景或與 Affordance 不符的區域視為負樣本。此策略與《CVPR 2024》對比學習架構一致,能有效將激活熱圖從雜訊背景轉移至功能性部件。

多視角 CLIP 物件檢測

論文利用 CLIP(Radford et al., 2021)做為跨視角物件指認引擎。首先在 egocentric(第一人稱)和 exocentric(第三人稱)影像中識別動作相關物件,再透過互補視角交叉參照,定位兩種視角下最精準的部件線索。此整合方式兼顧兩種視角的特徵互補性,可在無需標註的條件下挖掘潛在 Affordance 區域。

實驗效能與性能提升

根據作者在 public benchmark 的評測結果,相較於先前 SOTA 方法,本方案在 IoU(Intersection-over-Union)與 mAP(mean Average Precision)指標上分別提升約 4.3% 與 5.1%。此外,在模型活化圖(CAMs)定量分析中,Affordance 區域的平均信噪比增長近 18%,驗證選擇性對比學習能顯著改善地標精度。

實用部署與建議流程

建議在後端推論服務中,先行以 CLIP 進行物件篩選,再串接選擇性對比模組以持續優化活化圖。透過微服務化(Microservices)與容器化(Docker/Kubernetes),可將兩階段推論解耦,並在 GPU 集群上彈性擴展。此外,為確保資料安全與隱私合規,應遵循 GDPR 規範,對用戶影像進行最小化匿名化處理。

未來展望與技術啟示

結合選擇性對比學習與多視角融合,可拓展至自動化機器人抓取、AR/VR 互動系統等場景。《NeurIPS 2024》也提到,對比學習與生成式模型融合或能進一步強化少量標註下的性能。後續可考慮將 LLM 導入流程,對物件語義與動作意圖進行深度解析,以提升 Affordance 地標在複雜場景的適用性。邀請連結