CharBench：拆解切分策略對字元級任務的衝擊與優化實務

引言：CharBench全新字元級基準

隨著大型語言模型（LLM）應用日益廣泛，字元級任務如訊息計數、字元定位等仍是短板。根據 arXiv:2508.02591v2 〈CharBench〉報告指出，當前領先的公開與私有權重模型在該基準平均正確率僅為43.6％，部分任務更下降至32.3％，顯示模型在字元推理上存在系統性難題。

計數任務：切分特性與實際字元長度

在字元計數場景中，許多研究假設切分單元（token）長度與準確性高度關聯。然而，CharBench 實測結果顯示，分詞長度與正確率相關性僅弱，反倒是實際查詢字串長度和字元數量對結果影響更大。該結論呼應〈ACL 2024〉多語言字元分析論文，說明計數任務的核心挑戰在於長度通用性而非切分策略。

定位任務：長 Token 如何掩蓋位置信息

相較於計數，中介字元定位則顯示出明顯的切分依賴性。報告指出，所屬 token 長度每增加一位，模型在「找出目標字元」的準確性平均下降約5％。這意味著過長的 subword 單元會將多個字元信息「壓縮」於一體，使模型難以正確推斷內部位移，驗證了《EMNLP 2023》提出的字元位置衰減現象。

最佳實務：優化字元處理流程

針對上述挑戰，可從以下面向入手：一、選擇多粒度切分工具，例如結合 byte-level BPE 與 character-level tokenizer，降低定位歧義；二、於提示工程階段明確標記目標字元索引，輔以示例微調；三、部署後端推理服務時，對高頻字元任務採用專用子模型或後處理校正規則，提升計數與定位的整體召回。

結論與未來展望

CharBench 為字元級任務提供了規模兩個數量級提升的基準，並揭示切分策略在不同任務類型上的複雜作用。工程團隊可依據任務屬性，混合或動態調整 tokenizer 設定，加上提示優化與後處理，實現更穩定的字元推理能力。未來可將 CharBench 評測方法整合至 CI/CD 流程，持續監控模型更新後的字元級表現。

邀請加入 OKX 生態共創社群：https://www.okx.com/join?channelId=42974376