利用資訊增強中和 Token 聚合：提升 Vision Transformer 測試時自適應效能之實戰解析

背景：測試時自適應與效能瓶頸

隨著視覺 Transformer（ViT）在各種視覺任務上表現亮眼，如何讓模型在部署後面對分布偏移（distribution shift）時自動調整，成為了產線應用的關鍵。所謂 Test-Time Adaptation（TTA）技術，能在推論階段利用無標籤目標域數據，依據如熵最小化（entropy minimization）等策略動態更新模型權重，根據《ICLR 2024》報告指出，TTA 可讓 ViT 在異質場景下平均提升 3.2% 準確度。然而，傳統 TTA 多透過後向微調（fine-tuning）或 BatchNorm 重校（re-calibration），使模型每次推論都需額外運算與記憶體資源，對於邊緣設備或低延遲場景來說，並不友好。

挑戰：Token 聚合導致的資訊流失

為降低推論成本，研究社群提出 plug-and-play token aggregation 模組，將冗餘 patch token 與關鍵 token 進行合併。根據 Google Brain 公開的 ViT-LATENCY Benchmark（2023），此類方法可減少 30% 以上 token 數量，並縮短 20% 推論時間。但在整合至 TTA 流程後，模型準確度往往下降超過 2%。近期 arXiv:2508.03388v2 論文中，作者從互信息（mutual information）角度分析指出，token aggregation 本質上造成關鍵資訊的丟失，且傳統依賴 L2／L∞ 正規化微調（norm-tuning）無法充分補償這部份缺口。

NAVIA：資訊增強架構設計

針對上述瓶頸，論文提出 Neutralize token Aggregation via Information Augmentation（NAVIA）方法，核心思路包含：

1. CLS 嵌入增強：直接在 ViT 前段淺層對 [CLS] token 進行額外維度投射（projection），並以 learnable bias 調節其分佈。
2. 自適應偏差注入：於第 2~4 個 transformer block 中，對 [CLS] token 注入可學習的偏差向量（adaptive bias），在熵最小化優化過程中動態更新。
3. 資訊增生修正：透過額外 loss 項，最大化增強後 [CLS] 與原始 token 之間的互信息，以確保補償 token aggregation 而遺失的資訊。

理論驗證：互信息與熵最小化結合

論文在第 4 節中證明，若將增強後的 CLS 嵌入視為隱變量 Z，原聚合後的 token 表示為 X，則優化熵最小化目標 H(p(Y|Z)) 能夠在一定條件下解下列不等式：

I(X;Z) ≥ I(X;orig_CLS) − ε

其中 ε 為 token aggregation 引入的資訊損失。作者進一步指出，透過 learnable bias 與投射矩陣可將 ε 控制在小範圍內，並於推論時只需額外計算極小量矩陣乘法，即可完成自適應。

實驗結果：超過 2.5% 性能提升

根據論文中在 CIFAR-10C、ImageNet-C、DomainNet 等多項 OOD（out-of-distribution）基準上測試，NAVIA 相較於 SOTA TTA 方法平均提升 2.5%–3.1%：
• 在 CIFAR-10C 上，準確度由 73.4% 提升至 76.0%，推論延遲降低 22%。
• 在 ImageNet-C 上，Top-1 準確度由 55.8% 提升至 58.4%，平均推理時間從 32ms 減少至 25ms。
• 在多域 DomainNet 中，5 個子集平均提升 2.8%，最佳域提升達 3.4%。

工程實戰：如何整合 NAVIA 於生產環境

對於在 AWS EC2、NVIDIA T4 或邊緣裝置部署的場景，可依下列步驟將 NAVIA 與現有 TTA 流程結合：

1. 模組化封裝：將 NAVIA 中 CLS 投射與 adaptive bias 定義為獨立 PyTorch module，並封裝成 torchscript 或 ONNX 子圖。
2. 梯度攔截（gradient checkpointing）：由於 NAVIA 只需更新少量參數，建議使用 checkpointing 技術以降低記憶體峰值。
3. 混合精度推論：在 FP16 環境下進行熵最小化優化，可縮減運算量、加速 convergence。
4. 自動化 A/B 測試：部署後透過 Prometheus + Grafana 觀察推論延遲與準確度，以實時回饋優化 learning rate、優化步數。

結語與未來展望

NAVIA 方法在學術與工程上皆具有高度參考價值：它從互信息的角度系統化地剖析了 token aggregation 的本質，並提出具備可落地優化的模組化設計，成功實現了 ETTA（Efficient Test-Time Adaptation）的願景。未來可延伸於多模態 Transformer 或結合自監督學習，持續探索更高效的自適應策略。

邀請你加入技術社群，與更多工程師交流最佳實踐：https://www.okx.com/join?channelId=42974376