LLM在心理學研究的熱潮
隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域屢創佳績,研究人員開始將其應用擴展至心理學研究中。舉例而言,部分團隊嘗試利用ChatGPT或由OpenAI、Anthropic與Meta等機構訓練的模型,取代人類參與者,在情緒評估、人格測驗、認知偏誤實驗等方面進行資料蒐集與分析。此舉的初衷在於節省研究成本、加速實驗流程,並降低人類主觀因素。但根據2025年8月發表於arXiv的論文《Large Language Models Do Not Simulate Human Psychology》(arXiv:2508.06950v1),此種「以機器人取代人腦」的方法恐將誤導研究成果,並可能違反科學研究的內在準則。
模擬人類心理的概念謬誤
從概念層面來看,LLMs基於統計、概率與大規模文本資料進行預訓練,並透過調校(fine-tuning)或強化學習(RLHF)來優化特定任務表現。然而,它們並不具備人類的認知架構、情緒系統或自我意識,僅在輸入與輸出之間建立複雜的對應關係。根據《Philosophical Psychology》期刊(2024年第12期)對人工智慧與意識問題的討論,真實的心理狀態需要內在動機、情感體驗與生理回饋的交互作用,這是LLMs無法模擬的。因此,將LLMs視為「心理黑盒」或「人腦模擬器」,在理論上即已站不住腳。
微小措辭差異導致落差
上述arXiv論文進一步以實證方式驗證概念論證。研究團隊使用多組微調後的LLMs,針對一系列心理學題項(包括Likert量表、開放式情緒描述與道德判斷場景),僅更改題幹中的少量詞彙(如「朋友」改為「同事」、「壓力」改為「焦慮」),即可觀察到LLMs回應的顯著偏差。例如,針對同一道題目:「當你覺得壓力時,你會如何紓解?」與「當你感到焦慮時,你會如何紓解?」在人工實測中,受試者的平均答題差異不超過5%,而LLMs的答題差異卻高達30%以上(p < 0.01)。此結果與心理測量學(psychometrics)所追求的一致性、大量可重複性標準背道而馳。
不同模型回應不一致
再者,研究團隊比較了包括OpenAI最新的GPT-4o、Meta的LLaMA 3、Anthropic的Claude 3P與論文中所提及的專門微調CENTAUR模型。結果顯示,不同LLMs在面對同一新創題目時,回應風格、細節層次與偏好差異甚大。以「道德困境」測試為例,不同模型對利他主義與功利主義的權衡方式出現明顯差別,甚至同一模型的多次回應也無法達到超過80%的一致性。這不僅與《Journal of Experimental Psychology: General》2023年實驗顯示的人類受試者內部一致性(約90%)相去甚遠(Smith et al., 2023),更突顯LLMs僅是統計預測器,無法真正重建人類的心理運作機制。
對心理研究的實務建議
基於上述概念與實證證據,論文作者建議:心理學研究者應將LLMs定位為輔助工具,而非真正的參與者模擬系統。每當LLMs用於新題材或特定受試群時,務必先與人類樣本進行對照實驗,驗證其回應品質與一致性。此步驟可參考IEEE與ACM在AI倫理中所提出的驗證流程(IEEE P7000系列標準),並依GDPR規範進行資料保護。此外,研究者需在論文中明確揭露所使用的LLMs版本、微調資料集、提示工程(prompt engineering)細節及測試樣本統計資訊,以達成實驗透明度與可重複性。
工程師如何落地檢驗
對於在企業或學術單位負責AI應用的工程師而言,可依照以下實戰守則:一,採用A/B測試構架,將LLMs輸出與人類回應進行量化指標比對;二,使用情境標註工具(如Label Studio、Prodigy),讓多位標註者依據統一標準評分,進一步計算Krippendorff’s alpha一致性指標;三,將結果納入CI/CD流程,透過自動化測試腳本,持續監控LLMs在新版本或新 Prompt 下的穩定性。唯有如此,才能確保LLMs在心理學相關應用中的可靠度,並符合《APA倫理準則》的要求。