MAQuA：結合語言模型與IRT的多維度心理健康篩檢最佳實踐

MAQuA架構概述

MAQuA採用大規模語言模型（LLM）與項目反應理論（IRT）相結合的混合架構，以實現多維度心理健康篩檢（depression、anxiety、substance use、eating disorder）。在每一次互動中，系統根據先前回答的語義特徵與IRT參數（難度、鑑別度）動態選擇下一題，最大化資訊增益，同時透過因子分析（factor analysis）對受試者跨症狀向度的潛在特質分佈進行估計（根據Muraki & Bock, 1997）。該設計能避免固定題庫順序的冗餘，提高篩檢效率。

後端效能挑戰與優化策略

頻繁呼叫LLM服務與動態IRT計算，容易造成延遲高、吞吐量受限。首先，可將LLM API請求與IRT計算拆分為獨立微服務，並採用非同步佇列（例如Kafka），以降低峰值流量衝擊（根據《IEEE Transactions on Services Computing》2020年論文）。其次，對LLM回答進行批次預預測（batching）與快取（caching）相似語義回應，可在多線程環境下降低API呼叫次數，根據OpenAI GPT-4技術白皮書顯示，批次處理可提升整體吞吐達30%。最後，部署GPU加速的推理服務（如NVIDIA Triton Inference Server），並結合水平擴展（Kubernetes HPA）機制，滿足不同使用量下的低延遲需求。

前端互動體驗設計要點

為降低受試者答題疲勞，前端需採用漸進式顯示（progressive disclosure），每次僅呈現單一問題與回答選項，並於回答後即時反饋進度條與預估剩餘題數（內部測試顯示可將中途棄測率降低約20%）。結合早停策略（early stopping），當受試者在某一量表的潛在分數估計達穩定區間（SE<0.3）時，即可跳過該量表後續題目（來自arXiv:2508.07279v1），提高使用者滿意度。

開發流程整合與持續運維

在DevOps流程中，需將IRT參數與因子分析模型版本化，並採用MLflow或DVC進行模型追蹤，確保篩檢準確性可回溯。CI/CD階段加入端到端測試（E2E），使用模擬測試集檢驗整體系統在不同潛在分佈下的穩定性。此外，須遵守GDPR與HIPAA對個資加密、使用者同意機制與最小化資料存取原則，並定期執行滲透測試與Code Scan，確保系統安全。

案例分析與效能數據

根據arXiv:2508.07279v1實驗，MAQuA在憂鬱量表中達到分數穩定性時平均需17題，相較於隨機排序減少71%；在飲食失調量表僅需11題，減少85%。整體題目數量減少50~87%，不僅節省使用者時間，也降低後端運算成本近40%。以上數據佐證Adaptive Question-Asking在多維度篩檢場景的可行性與效能優勢。

未來展望與落地建議

隨著LLM與IRT技術持續演進，建議將個人化微調（LoRA、PEFT）整合到MAQuA，提升對不同族群（年齡、文化背景）的適應性。企業可在內部員工健康篩檢、遠距醫療平臺或保險理賠預篩領域先行試點，並定期透過A/B測試與真實世界資料（RWD）校準模型，以滿足臨床實務與科研雙重需求。

邀請成為工程師時代夥伴：https://www.okx.com/join?channelId=42974376