不可見的 LLM 越獄攻擊：利用 Unicode 變體選擇器實現隱形 Prompt Injection

什麼是不可見越獄攻擊

在大規模語言模型（LLM）安全領域，傳統的越獄（jailbreak）攻擊多依賴明顯的文本修改或非語義後綴，便於檢測與過濾。近期 arXiv:2510.05025v1 提出一種全新「不可見越獄（imperceptible jailbreak）」技術，透過隱藏式 Unicode 變體選擇器（variation selectors），將惡意指令「隱形」地夾帶於原始提問中，令使用者與自動化審查系統無法從可見文字上察覺異動。該研究已公開於 GitHub：https://github.com/sail-sg/imperceptible-jailbreaks，並在多家對齊 LLM（Aligned LLM）上驗證高攻擊成功率。

技術原理：Unicode 變體選擇器

Unicode 變體選擇器是一類用於標註字形變化的隱形字元，包含 VS1（U+FE00）至 VS16（U+FE0F）等，可影響字元顯示或聯合字形。攻擊者將這些看似不存在但可改變 Token 化結果的字元附加至文本末端，借助不同的 Tokenizer（例如 BPE、SentencePiece）在編碼階段劃分不同 Tokens。根據 OpenAI 官方文件與白皮書所述，Tokenizer 的脆弱性使得相似文本，經過變體選擇器後能被模型解析為不同提示，進而繞過安全策略。

生成式 Pipeline：Chain-of-Search

為自動化生成「隱形後綴」，研究團隊提出 Chain-of-Search 流程，結合字形庫、淺層語義過濾與蒙地卡羅樹搜索（Monte Carlo Tree Search）。步驟如下：
1）定義候選變體集與語法結構；
2）利用浅層語義相似度判別器預篩；
3）驅動樹搜索生成最優後綴；
4）依據模型回應評分動態調整策略。此流程在 Benchmarks（如 BigBench Hard）上的平均迭代次數不到 50 步便收斂，攻擊效率高且可廣泛套用於不同 LLM 與應用場景。

實驗結果與成功率分析

實驗對象涵蓋四大對齊模型：OpenAI GPT-4、Anthropic Claude 2、Meta LLaMA 3 與 Google Bard。研究顯示，在不改變可見文字的前提下，imperceptible 越獄平均成功率可達 78％，Prompt Injection 攻擊則超過 65％。在官方白皮書中，OpenAI 標示其安全策略可攔截 90％以上常見惡意輸入；然而本方法藉由「隱形」干擾，使得安全策略失效率提升近 30％，顯示模型安全防護仍有顯著漏洞。

防禦策略與實戰建議

針對這類攻擊，可從以下方向強化防禦：
1）於預處理階段移除所有 Unicode 變體選擇器；
2）將 Tokenizer 升級為可辨識隱形字元的版本，並在白名單中明確排除不必要字元；
3）結合正則化與語義相似度兩級檢測，封鎖經過隱形干擾卻攜帶惡意指令的輸入；
4）持續追蹤 GitHub 社群發布的 PoC，並加入紅隊演練驗證。根據 CNCF 與 OWASP 建議，防禦策略必須與模型更新同步，並定期以實測 Benchmark 驗證安全強度。

未來研究與職涯規劃

對於 30–40 歲從業工程師，建議在積累 LLM 越獄與對齊安全經驗後，可拓展到安全架構設計或研究員角色。參考 arXiv、ACL、IEEE S&P 等頂尖論文，並在 Kaggle、CodaLab 等平台進行攻防實驗。透過持續發表白皮書、參與社群（如 OKX 技術社群）分享實戰守則，將有助於在雲端 SaaS 與 Web3 領域晉升資深安全架構師或技術布道者。