背景:測試時自適應與效能瓶頸
隨著視覺 Transformer(ViT)在各種視覺任務上表現亮眼,如何讓模型在部署後面對分布偏移(distribution shift)時自動調整,成為了產線應用的關鍵。所謂 Test-Time Adaptation(TTA)技術,能在推論階段利用無標籤目標域數據,依據如熵最小化(entropy minimization)等策略動態更新模型權重,根據《ICLR 2024》報告指出,TTA 可讓 ViT 在異質場景下平均提升 3.2% 準確度。然而,傳統 TTA 多透過後向微調(fine-tuning)或 BatchNorm 重校(re-calibration),使模型每次推論都需額外運算與記憶體資源,對於邊緣設備或低延遲場景來說,並不友好。
挑戰:Token 聚合導致的資訊流失
為降低推論成本,研究社群提出 plug-and-play token aggregation 模組,將冗餘 patch token 與關鍵 token 進行合併。根據 Google Brain 公開的 ViT-LATENCY Benchmark(2023),此類方法可減少 30% 以上 token 數量,並縮短 20% 推論時間。但在整合至 TTA 流程後,模型準確度往往下降超過 2%。近期 arXiv:2508.03388v2 論文中,作者從互信息(mutual information)角度分析指出,token aggregation 本質上造成關鍵資訊的丟失,且傳統依賴 L2/L∞ 正規化微調(norm-tuning)無法充分補償這部份缺口。
NAVIA:資訊增強架構設計
針對上述瓶頸,論文提出 Neutralize token Aggregation via Information Augmentation(NAVIA)方法,核心思路包含:
1. CLS 嵌入增強:直接在 ViT 前段淺層對 [CLS] token 進行額外維度投射(projection),並以 learnable bias 調節其分佈。
2. 自適應偏差注入:於第 2~4 個 transformer block 中,對 [CLS] token 注入可學習的偏差向量(adaptive bias),在熵最小化優化過程中動態更新。
3. 資訊增生修正:透過額外 loss 項,最大化增強後 [CLS] 與原始 token 之間的互信息,以確保補償 token aggregation 而遺失的資訊。
理論驗證:互信息與熵最小化結合
論文在第 4 節中證明,若將增強後的 CLS 嵌入視為隱變量 Z,原聚合後的 token 表示為 X,則優化熵最小化目標 H(p(Y|Z)) 能夠在一定條件下解下列不等式:
I(X;Z) ≥ I(X;orig_CLS) − ε
其中 ε 為 token aggregation 引入的資訊損失。作者進一步指出,透過 learnable bias 與投射矩陣可將 ε 控制在小範圍內,並於推論時只需額外計算極小量矩陣乘法,即可完成自適應。
實驗結果:超過 2.5% 性能提升
根據論文中在 CIFAR-10C、ImageNet-C、DomainNet 等多項 OOD(out-of-distribution)基準上測試,NAVIA 相較於 SOTA TTA 方法平均提升 2.5%–3.1%:
• 在 CIFAR-10C 上,準確度由 73.4% 提升至 76.0%,推論延遲降低 22%。
• 在 ImageNet-C 上,Top-1 準確度由 55.8% 提升至 58.4%,平均推理時間從 32ms 減少至 25ms。
• 在多域 DomainNet 中,5 個子集平均提升 2.8%,最佳域提升達 3.4%。
工程實戰:如何整合 NAVIA 於生產環境
對於在 AWS EC2、NVIDIA T4 或邊緣裝置部署的場景,可依下列步驟將 NAVIA 與現有 TTA 流程結合:
1. 模組化封裝:將 NAVIA 中 CLS 投射與 adaptive bias 定義為獨立 PyTorch module,並封裝成 torchscript 或 ONNX 子圖。
2. 梯度攔截(gradient checkpointing):由於 NAVIA 只需更新少量參數,建議使用 checkpointing 技術以降低記憶體峰值。
3. 混合精度推論:在 FP16 環境下進行熵最小化優化,可縮減運算量、加速 convergence。
4. 自動化 A/B 測試:部署後透過 Prometheus + Grafana 觀察推論延遲與準確度,以實時回饋優化 learning rate、優化步數。
結語與未來展望
NAVIA 方法在學術與工程上皆具有高度參考價值:它從互信息的角度系統化地剖析了 token aggregation 的本質,並提出具備可落地優化的模組化設計,成功實現了 ETTA(Efficient Test-Time Adaptation)的願景。未來可延伸於多模態 Transformer 或結合自監督學習,持續探索更高效的自適應策略。
邀請你加入技術社群,與更多工程師交流最佳實踐:https://www.okx.com/join?channelId=42974376