資料稀疏與人氣偏差
在推薦系統中,使用者與商品之間的互動資料常因操作成本或冷啟動問題導致稀疏,進而衍生人氣偏差(popularity bias)。根據 arXiv:2507.21563v2,資料稀疏不僅降低召回率,也使熱門商品持續獲益,而冷門項目難以曝光,影響多樣性與系統公平性。
LLM 多次重排增強
為了弱化稀疏與偏差問題,論文提出以大型語言模型(LLM)結合商品文本描述進行少樣本提示(few-shot prompting);多次呼叫 LLM 針對同一組使用者候選商品清單進行重排序(reranking),從語義層面挖掘潛在興趣關係,豐富交互樣本分佈。
多數決合成交互
本方法重點在於將多次重排結果透過多數決(majority voting)機制聚合,僅保留高信度的使用者—商品配對,生成合成互動。基於集中量測(concentration of measure)的理論保證,可證明採樣次數足夠時,合成資料與真實分佈的偏離度可控。
圖對比學習整合
針對圖形推薦(Graph-based Recommendation)模型,作者將合成交互導入圖對比學習(Contrastive Learning)框架,藉由對比正負範例提升節點表徵質量,並透過正樣本拉近、負樣本推遠的方式,緩解合成資料與原始互動間的分佈差異(distributional shift)。
實驗結果與效能提升
論文在多項開放資料集上對比常見強基線(如LightGCN、NGCF),挑選 Precision@K、Recall@K 及Popularity Bias 指標進行評估;結果顯示,與基線相比,本方法在 Precision@20 上平均提升5%至12%,同時將人氣偏差指標降低約8%。
實踐建議與工具鏈
對於希望在生產環境中落地該架構的工程師,建議:1. 選擇支援高併發 API 的 LLM 平台;2. 以批次方式執行多次重排並行化請求;3. 運用 PyG 或 DGL 實作圖對比學習;4. 定期校驗合成資料品質,避免模型漂移;5. 依據 GDPR 及企業資安規範,審慎處理使用者與商品敏感描述。