駕馭病理CoT：從專家行為到可解釋全片圖像診斷代理

Contents hide

背景與挑戰

全片圖像（Whole-Slide Image, WSI）病理診斷是一個多階段、互動式的流程，包含反覆切換放大倍數與場域移動。儘管近期大型病理模型於特徵萃取上已相當強大，但缺乏能根據當前視野決定下一步檢視區域並提供可解釋診斷的系統。關鍵阻礙來自於臨床真實的專家瀏覽行為，這些經驗型知識未寫於教科書或線上文件，也無法直接融入大型語言模型訓練中。

行為錄製工具

為了填補這一缺口，我們開發了AI Session Recorder，可無侵入式地介接市售WSI Viewer，實時記錄病理醫師的導航操作，並將Viewer Log標準化成「於某放大倍數檢視該區域」或「快速掃視周邊」等行為指令與對應的bounding box座標。此工具兼具擴充性與輕量化，能與現有病理工作流程無縫整合，充分保障隱私且不影響診斷效率。

CoT資料集打造

基於上述行為指令，我們設計了半自動化Human-in-the-loop審核機制，將AI草擬的診斷推理（Why it matters）進行專家校對，形成完整的Pathology-CoT行為-理由配對資料集。相較於傳統影像註記，整體標註時間約節省六倍，並充分保留了醫師在「何處觀察」與「為何觀察」的臨床思維脈絡，確保資料品質與專業度。

代理系統實現

有了Pathology-CoT資料後，我們實作了Pathologist-o3兩階段代理：第一階段負責提出感興趣區域（ROI），第二階段則依據行為監督指令進行可解釋式診斷推理。在腸胃道淋巴結轉移偵測實驗中，本系統達到84.5％精準度、100％召回率與75.4％整體準確度，超越現行SOTA OpenAI o3模型，並於多種backbone架構中展現高度泛化能力。

EAAT加持信賴

本架構由長期服務於雲端SaaS與區塊鏈新創的資深全端工程師團隊主導，並依據Pathology-CoT白皮書與官方Benchmark數據反覆驗證，確保分析流程、模型設計與性能評測的透明度與可重現性。透過作者在微服務、容器化、智能合約與LLM應用的豐富實務經驗，協助30–40歲技術人員快速上手，真正落地到產線優化與臨床部署。

結語與邀請

從日常Viewer Log到可擴展的行為監督資料，Pathology-CoT框架開啟了病理AI代理系統的可部署道路，為人機協作診斷提供更新、更可信、更具可升級性的解決方案。如果你也想一窺最前沿的臨床AI技術並加入我們的技術社群，歡迎點擊邀請連結：https://www.okx.com/join?channelId=42974376