背景與挑戰隨著大型語言模型(LLM)被廣泛應用於客服、程式碼輔助和對話代理,對抗性與 jailbreak 攻擊的威脅也日益升高。這類攻擊利用精心設計的提示詞,誘導模型輸出不當或違規內容,對企業資訊安全及使用者信任造成衝擊。過去以黑盒查詢或行為指紋為基礎的方法,往往在標註資料稀缺時效能下滑,且偵測速度不足以滿足線上部署需求。上下文共現張量解析《CoCoTen: Detecting Adversarial Inputs to Large Language Models through Latent Space Features of Contextual Co-occurrence Tensors》一文提出將「上下文共現矩陣(Contextual Co-occurrence Matrix)」延伸為高階張量,以捕捉提示詞中跨 token 的語義關聯。此結構在資料稀少場景下,已有在自然語言處理與社群分析的應用(根據 arXiv:2508.02997v2)。潛在空間特徵提取研究團隊利用張量分解(例如 CP 分解與 Tucker 分解),將高維張量映射至低維潛在空間,並從中萃取可區分正常提示與對抗提示的關鍵特徵。這些潛在向量可視為提示詞在語義交互維度的嵌入,對抗樣本因刻意誤導模型,將在潛在空間呈現異於常規輸入的分佈特性。實驗結果與效能表現根據作者於 arXiv 公開之實驗,僅使用0.5% 標註提示,便達到…