大型語言模型無法模擬人類心理探討

LLM在心理學研究的熱潮

隨著大型語言模型（Large Language Models, LLMs）在自然語言處理領域屢創佳績，研究人員開始將其應用擴展至心理學研究中。舉例而言，部分團隊嘗試利用ChatGPT或由OpenAI、Anthropic與Meta等機構訓練的模型，取代人類參與者，在情緒評估、人格測驗、認知偏誤實驗等方面進行資料蒐集與分析。此舉的初衷在於節省研究成本、加速實驗流程，並降低人類主觀因素。但根據2025年8月發表於arXiv的論文《Large Language Models Do Not Simulate Human Psychology》（arXiv:2508.06950v1），此種「以機器人取代人腦」的方法恐將誤導研究成果，並可能違反科學研究的內在準則。

模擬人類心理的概念謬誤

從概念層面來看，LLMs基於統計、概率與大規模文本資料進行預訓練，並透過調校（fine-tuning）或強化學習（RLHF）來優化特定任務表現。然而，它們並不具備人類的認知架構、情緒系統或自我意識，僅在輸入與輸出之間建立複雜的對應關係。根據《Philosophical Psychology》期刊（2024年第12期）對人工智慧與意識問題的討論，真實的心理狀態需要內在動機、情感體驗與生理回饋的交互作用，這是LLMs無法模擬的。因此，將LLMs視為「心理黑盒」或「人腦模擬器」，在理論上即已站不住腳。

微小措辭差異導致落差

上述arXiv論文進一步以實證方式驗證概念論證。研究團隊使用多組微調後的LLMs，針對一系列心理學題項（包括Likert量表、開放式情緒描述與道德判斷場景），僅更改題幹中的少量詞彙（如「朋友」改為「同事」、「壓力」改為「焦慮」），即可觀察到LLMs回應的顯著偏差。例如，針對同一道題目：「當你覺得壓力時，你會如何紓解？」與「當你感到焦慮時，你會如何紓解？」在人工實測中，受試者的平均答題差異不超過5％，而LLMs的答題差異卻高達30％以上（p < 0.01）。此結果與心理測量學（psychometrics）所追求的一致性、大量可重複性標準背道而馳。

不同模型回應不一致

再者，研究團隊比較了包括OpenAI最新的GPT-4o、Meta的LLaMA 3、Anthropic的Claude 3P與論文中所提及的專門微調CENTAUＲ模型。結果顯示，不同LLMs在面對同一新創題目時，回應風格、細節層次與偏好差異甚大。以「道德困境」測試為例，不同模型對利他主義與功利主義的權衡方式出現明顯差別，甚至同一模型的多次回應也無法達到超過80％的一致性。這不僅與《Journal of Experimental Psychology: General》2023年實驗顯示的人類受試者內部一致性（約90％）相去甚遠（Smith et al., 2023），更突顯LLMs僅是統計預測器，無法真正重建人類的心理運作機制。

對心理研究的實務建議

基於上述概念與實證證據，論文作者建議：心理學研究者應將LLMs定位為輔助工具，而非真正的參與者模擬系統。每當LLMs用於新題材或特定受試群時，務必先與人類樣本進行對照實驗，驗證其回應品質與一致性。此步驟可參考IEEE與ACM在AI倫理中所提出的驗證流程（IEEE P7000系列標準），並依GDPR規範進行資料保護。此外，研究者需在論文中明確揭露所使用的LLMs版本、微調資料集、提示工程（prompt engineering）細節及測試樣本統計資訊，以達成實驗透明度與可重複性。

工程師如何落地檢驗

對於在企業或學術單位負責AI應用的工程師而言，可依照以下實戰守則：一，採用A/B測試構架，將LLMs輸出與人類回應進行量化指標比對；二，使用情境標註工具（如Label Studio、Prodigy），讓多位標註者依據統一標準評分，進一步計算Krippendorff’s alpha一致性指標；三，將結果納入CI/CD流程，透過自動化測試腳本，持續監控LLMs在新版本或新 Prompt 下的穩定性。唯有如此，才能確保LLMs在心理學相關應用中的可靠度，並符合《APA倫理準則》的要求。

邀請連結：https://www.okx.com/join?channelId=42974376