研究背景與動機
隨著電子商務與數位內容平台蓬勃發展,會話式推薦系統(Conversational Recommender Systems,CRSs)逐漸成為提升使用者互動與滿意度的重要技術。根據《ACM Transactions on Interactive Intelligent Systems》2021年報告指出,用戶更傾向在聊天介面中獲得即時商品或內容推薦。然而,現有文獻多聚焦於演算法效能與推薦準確度,對於使用者體驗(User Experience,UX)的實證評估仍存明顯不足。
系統性回顧流程與資料來源
本研究依據2015年《PRISMA聲明》(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)流程進行系統性回顧,納入自2017年至2025年間,包含期刊論文、會議論文與預印本在內的23項實證研究(詳見 arXiv:2508.02096v2)。資料庫涵蓋IEEE Xplore、ACM Digital Library及arXiv等,並排除未提供使用者實驗或問卷數據的研究。此分析方法確保了對古典與LLM驅動CRS的全面性與代表性。
UX構面分類與衡量方法
透過內容分析,我們將UX衡量指標歸納為三大構面:認知負荷、情感回饋與互動滿意度。多數研究仍以調查問卷(如SUS、UEQ)進行事後評估,佔比高達78%。極少數(約13%)於對話流程中即時收集生理或行為數據。例如,根據《User Modeling and User-Adapted Interaction》2023年研究,採用面部表情辨識評估使用者在推薦過程中的情感波動,但此類方法在實務中尚未普及。
自適應性與LLM對UX的影響
自適應CRS透過用戶回饋動態調整推薦策略,能在一定程度上提升互動品質。根據《Journal of Web Semantics》2022年實驗發現,自適應系統在第一回合互動後,使用者滿意度提升約12%。相較之下,LLM驅動的CRS(如基於GPT-4/PaLM架構)雖具備更豐富語言生產能力,卻因「知識不透明性」(epistemic opacity)與冗言問題(verbosity)而對UX構成挑戰。多數評估仍未針對這些新興議題設計專屬指標,導致難以全面掌握LLM介入後的UX變化。
挑戰與研究侷限性
本次回顧揭示三項主要侷限:首先,實驗多依賴小規模使用者群體,樣本數平均僅30人(標準差12),導致結論外推性受限。其次,缺乏回合層級(turn-level)情感與認知負荷評量,如心率變異或即時焦慮指標。最後,現有研究多聚焦單一領域(如電影或購物推薦),跨領域通用性尚待驗證。
向LLM覺醒的UX評估未來方向
為提升CRS UX實證評價,我們建議:一、引入多模態生理量測(參考《Proceedings of CHI》2024年案例),即時掌握情感動態;二、設計對抗性實驗,針對LLM生成冗言情境進行A/B測試,以量化「回饋精簡度」對滿意度的影響;三、強化跨領域研究,結合旅遊、醫療、教育場域,驗證通用性並針對特定場景訂製衡量指標。此外,可利用混合式評估框架,將自動化指標(如對話長度、反應時)與主觀感受問卷相結合,以兼顧精確性與可讀性。
結論與實務啟示
本研究透過PRISMA指南系統性回顧了23項實證研究,結構化地呈現CRS在UX評估上的現狀與缺口。對後端微服務架構與前端對話介面設計者而言,應在產品迭代中納入生理與行為數據收集機制,並針對LLM冗言與知識透明度設計專屬評估指標。如此方能打造更具透明度、吸引力與使用者導向的會話式推薦體驗。
邀請您深入探索更多區塊鏈與生成式AI技術,歡迎加入:OKX 推薦連結