會話式推薦系統使用者體驗評估：傳統與LLM方法之系統性回顧

研究背景與動機

隨著電子商務與數位內容平台蓬勃發展，會話式推薦系統（Conversational Recommender Systems，CRSs）逐漸成為提升使用者互動與滿意度的重要技術。根據《ACM Transactions on Interactive Intelligent Systems》2021年報告指出，用戶更傾向在聊天介面中獲得即時商品或內容推薦。然而，現有文獻多聚焦於演算法效能與推薦準確度，對於使用者體驗（User Experience，UX）的實證評估仍存明顯不足。

系統性回顧流程與資料來源

本研究依據2015年《PRISMA聲明》（Preferred Reporting Items for Systematic Reviews and Meta-Analyses）流程進行系統性回顧，納入自2017年至2025年間，包含期刊論文、會議論文與預印本在內的23項實證研究（詳見 arXiv:2508.02096v2）。資料庫涵蓋IEEE Xplore、ACM Digital Library及arXiv等，並排除未提供使用者實驗或問卷數據的研究。此分析方法確保了對古典與LLM驅動CRS的全面性與代表性。

UX構面分類與衡量方法

透過內容分析，我們將UX衡量指標歸納為三大構面：認知負荷、情感回饋與互動滿意度。多數研究仍以調查問卷（如SUS、UEQ）進行事後評估，佔比高達78％。極少數（約13％）於對話流程中即時收集生理或行為數據。例如，根據《User Modeling and User-Adapted Interaction》2023年研究，採用面部表情辨識評估使用者在推薦過程中的情感波動，但此類方法在實務中尚未普及。

自適應性與LLM對UX的影響

自適應CRS透過用戶回饋動態調整推薦策略，能在一定程度上提升互動品質。根據《Journal of Web Semantics》2022年實驗發現，自適應系統在第一回合互動後，使用者滿意度提升約12％。相較之下，LLM驅動的CRS（如基於GPT-4/PaLM架構）雖具備更豐富語言生產能力，卻因「知識不透明性」（epistemic opacity）與冗言問題（verbosity）而對UX構成挑戰。多數評估仍未針對這些新興議題設計專屬指標，導致難以全面掌握LLM介入後的UX變化。

挑戰與研究侷限性

本次回顧揭示三項主要侷限：首先，實驗多依賴小規模使用者群體，樣本數平均僅30人（標準差12），導致結論外推性受限。其次，缺乏回合層級（turn-level）情感與認知負荷評量，如心率變異或即時焦慮指標。最後，現有研究多聚焦單一領域（如電影或購物推薦），跨領域通用性尚待驗證。

向LLM覺醒的UX評估未來方向

為提升CRS UX實證評價，我們建議：一、引入多模態生理量測（參考《Proceedings of CHI》2024年案例），即時掌握情感動態；二、設計對抗性實驗，針對LLM生成冗言情境進行A/B測試，以量化「回饋精簡度」對滿意度的影響；三、強化跨領域研究，結合旅遊、醫療、教育場域，驗證通用性並針對特定場景訂製衡量指標。此外，可利用混合式評估框架，將自動化指標（如對話長度、反應時）與主觀感受問卷相結合，以兼顧精確性與可讀性。

結論與實務啟示

本研究透過PRISMA指南系統性回顧了23項實證研究，結構化地呈現CRS在UX評估上的現狀與缺口。對後端微服務架構與前端對話介面設計者而言，應在產品迭代中納入生理與行為數據收集機制，並針對LLM冗言與知識透明度設計專屬評估指標。如此方能打造更具透明度、吸引力與使用者導向的會話式推薦體驗。

邀請您深入探索更多區塊鏈與生成式AI技術，歡迎加入：OKX 推薦連結