比較研究:Tsetlin機器的特徵選擇技術

特徵選擇的重要性

特徵選擇(Feature Selection)在機器學習中扮演降低模型複雜度、提升可解釋度與準確率的重要角色。根據 arXiv:2508.06991v1(2025)指出,特徵冗餘或噪聲不僅會拖累運算效能,還會影響模型推論的可靠性,尤其對於邊緣運算或資源受限場景更為關鍵。

Tsetlin機器概述

Tsetlin 機器(Tsetlin Machine,TM)採用可解釋的子句(Clause)結構與 Tsetlin 自動機(TA)狀態學習,具備類似布林句法的判別機制。雖然 TM 在文本分類、影像辨識等領域展現潛力,但官方或社群針對特徵重要度估計的工具尚未成熟。

傳統方法比較

常見特徵篩選技術包含濾波(Filter)、包嵌(Embedded)以及後設解釋法(Post-hoc),如 SHAP(Lundberg 等人,2017《Nature Communications》)與 LIME(Ribeiro 等人,2016《KDD》)。這類方法雖具通用性,但在 TM 框架下運算成本高昂,同時無法充分利用子句互動模式。

TM內部評分

論文提出三大類原生評分器:基於子句權重、TA 狀態占比與複合型指標,可直接從模型訓練過程擷取特徵重要度。實驗顯示,僅需額外計算子句統計資訊,即能以次於 10% 的額外成本完成特徵評估。

基準測試策略

研究團隊採用 12 組公開資料集,透過 Remove and Retrain(ROAR)與 Remove and Debias(ROAD)策略評估因果影響,確保篩除特徵後的準確度變化與偏差情形均受控。此方法源自 Molnar(2020)解釋性架構,具備良好可重現性。

效能與實踐

實驗結果顯示,TM 原生評分器在保留模型準確度(±1%)同時,計算時間僅為 SHAP 的 5% 左右,並有效揭露特徵交互作用。對於追求低延遲或成本敏感的服務,可優先採用 TM 內部評分策略;並建議結合 OKX邀請連結 以獲取更多實戰案例。