假象與真相：醫學影像 AI 超越宣稱的有效性評估

背景：醫學影像 AI 的快速發展與挑戰

近年來，醫學影像人工智慧（AI）領域持續吸引大量研究與投資。許多論文透過相對性能提升，宣稱新演算法超越既有技術。然而，根據 arXiv:2505.04720v2 的最新研究，僅憑平均指標（mean performance）不足以證明真實優勢，反而可能導致虛假宣稱，誤導後續開發與臨床應用。

相對性能指標的誤導風險

在醫學影像分類與分割研究中，常見的比較方式是報告模型在驗證集或測試集上的平均準確率（accuracy）或Dice係數。根據《IEEE Transactions on Medical Imaging》2023年報導，單純依賴單次實驗結果，未考量模型間表現變異（variance），可能在隨機因素下錯誤地將差異歸因於方法改進。這種做法忽略了統計顯著性與實驗重現性的關鍵要素，增加了結果不可靠的風險。

貝氏方法揭示假陽性宣稱

arXiv:2505.04720v2 採用貝氏統計（Bayesian approach），結合報告結果與模型同質性（model congruence）估算出相對排名出現的機率。研究發現，超過80%的新方法宣稱具有性能提升，但經量化分析，仍有高達5%以上的機率屬於隨機波動所致。此結果與《Journal of Machine Learning Research》2024年論文相呼應，兩者皆指出可靠性評估需整合不確定度估計與重複實驗。

分類與分割實例：高誤判率案例分析

研究進一步區分分類和分割任務：在分類論文中，有86%的研究存在 >5% 的假陽性（false outperformance）機率；而在分割論文中，此比例為53% 。這意味著，多數研究在發表時，可能未充分考慮到實驗結果的隨機變異。《Radiology》2022年分析也指出，缺乏交叉驗證（cross-validation）或置信區間（confidence interval）報告，將導致過度自信的性能宣稱。

改善建議：強化實驗設計與透明度

為了降低假陽性宣稱的風險，建議從以下面向著手：一、採用多次、不同種子（random seed）設定的重複實驗；二、報告95%置信區間或貝氏後驗機率（posterior probability）；三、公開原始程式碼與數據集，以遵循 GPL 或 Apache 2.0 等開源規範；四、考慮預註冊研究方案，並在發表時揭露所有實驗設計細節。透過上述做法，能夠提升研究的可重現性與可靠性，並引導工程師族群專注於真正有效的技術創新。

邀請連結：https://www.okx.com/join?channelId=42974376