Posted inNEWS
Planner-Refiner:視訊語言對齊的時空動態細化框架解析
概述視訊語言對齊挑戰 視訊語言對齊是一項結合自然語言處理與視覺資訊理解的跨模態任務,其主要挑戰在於語言複雜度、時空動態場景以及視覺與語義之間的差距。根據 arXiv:2508.07330v1,Planner-Refiner 針對上述核心問題提出創新解決方案。傳統模型通常直接以整段文字指令對整個視訊內容進行映射,容易忽略動態物體之間的交互或關係鏈,並且計算成本隨序列長度呈二次增加,影響系統的延遲與吞吐量。Planner-Refiner 框架藉由「語義分解」與「時空細化」兩大模組,將複雜提示拆解為更易處理的短句,並針對各階段進行動態對齊,從而降低語義與視覺特徵間的差距。 Planner-Refiner 架構設計 整體架構可分為兩個主要模組:Planner 與 Refiner。Planner 負責解析複雜語句,依據自然語言結構將長段提示拆分為多段短句鍊,類似 NLP 中的序列標注流程,以高效產生短句組合(noun-phrase/verb-phrase pairing)。Refiner 針對每段短句,透過空間與時間兩階段的自注意力演算,對視覺 token 進行細粒度加權調節。根據 arXiv:2508.07330v1 提到的實驗,該設計可有效將一次性動態推理的計算複雜度從 O(N^2T^2) 降到 O(NT+N^2),大幅提升時間效能且節省記憶體佔用。 時空表示的動態細化 Refiner 模組首先在空間維度進行自注意力(Self-Attention),以 noun-phrase 引導視覺 token 聚焦於場景中的相關區域。接著,利用 verb-phrase…
