比較研究：Tsetlin機器的特徵選擇技術

特徵選擇的重要性

特徵選擇（Feature Selection）在機器學習中扮演降低模型複雜度、提升可解釋度與準確率的重要角色。根據 arXiv:2508.06991v1（2025）指出，特徵冗餘或噪聲不僅會拖累運算效能，還會影響模型推論的可靠性，尤其對於邊緣運算或資源受限場景更為關鍵。

Tsetlin機器概述

Tsetlin 機器（Tsetlin Machine，TM）採用可解釋的子句（Clause）結構與 Tsetlin 自動機（TA）狀態學習，具備類似布林句法的判別機制。雖然 TM 在文本分類、影像辨識等領域展現潛力，但官方或社群針對特徵重要度估計的工具尚未成熟。

傳統方法比較

常見特徵篩選技術包含濾波（Filter）、包嵌（Embedded）以及後設解釋法（Post-hoc），如 SHAP（Lundberg 等人，2017《Nature Communications》）與 LIME（Ribeiro 等人，2016《KDD》）。這類方法雖具通用性，但在 TM 框架下運算成本高昂，同時無法充分利用子句互動模式。

TM內部評分

論文提出三大類原生評分器：基於子句權重、TA 狀態占比與複合型指標，可直接從模型訓練過程擷取特徵重要度。實驗顯示，僅需額外計算子句統計資訊，即能以次於 10% 的額外成本完成特徵評估。

基準測試策略

研究團隊採用 12 組公開資料集，透過 Remove and Retrain（ROAR）與 Remove and Debias（ROAD）策略評估因果影響，確保篩除特徵後的準確度變化與偏差情形均受控。此方法源自 Molnar（2020）解釋性架構，具備良好可重現性。

效能與實踐

實驗結果顯示，TM 原生評分器在保留模型準確度（±1%）同時，計算時間僅為 SHAP 的 5% 左右，並有效揭露特徵交互作用。對於追求低延遲或成本敏感的服務，可優先採用 TM 內部評分策略；並建議結合 OKX邀請連結以獲取更多實戰案例。