漸進式概念構建:提升複雜場景下視頻物件分割效能

漸進式概念構建:提升複雜場景下視頻物件分割效能

從視覺匹配到概念驅動 傳統視頻物件分割(Video Object Segmentation, VOS)多仰賴底層特徵匹配,以外觀相似性追蹤目標。然而面對劇烈視覺變化、遮擋與動態場景,這類方法常失去穩定性。根據 arXiv:2507.15852v2 所示,Segment Concept(SeC)框架透過「高階概念構建」克服此限制,以人類式的語義理解代替單純匹配。SeC 首先蒐集多幀視覺線索,藉由大規模視覺-語言模型(Large Vision-Language Model, LVLM)評估並累積目標的語義特徵,構築出穩健的概念先驗。此機制有如人類觀察物體多角度並建立心智表徵,能在後續幀中即便外觀大幅變形,仍維持精準分割能力。實驗結果顯示,在 SeCVOS 基準測試上,SeC 相較於 SAM 2.1,IoU 提升 11.8 個百分點,顯著拉開差距。 Segment Concept架構設計 SeC 的整體流程可細分為「概念建構—語義推理—動態匹配」三大階段。首先,輸入多張標註初始幀與關鍵幀後,SeC 利用 LVLM(如 OV-LvLM、GLIP 等開源模型)在隱空間中抽取物體屬性向量,並將時間維度訊息一併編碼,形成初步概念表示(Concept Embedding)。接著,結合 Transformer…