Posted inNEWS
ESNERA:自動化多源 NER 資料集合併實戰
為何需要自動化標註集融合命名實體識別(Named Entity Recognition,NER)是自然語言處理核心任務,應用於搜尋、問答與資訊擷取等場景。構建高品質標註語料耗時且昂貴,成為推動研究前行的瓶頸。根據 arXiv:2508.06877v1,新興資料集融合多仰賴人工標籤映射或標籤圖策略,缺乏可擴展性與可解釋性。ESNERA 核心原理與標籤對齊策略ESNERA 結合實證相似度(empirical similarity)與語義相似度(semantic similarity),先以標籤共現頻次與統計關係衡量實證相似度,並透過 BERT embedding 向量餘弦相似度計算語義相似度,再採貪婪式成對合併(greedy pairwise merging),達到自動化標籤對齊。實驗設計與性能驗證研究於兩階段驗證成效。第一階段融合三大公開 NER 語料(如 CoNLL-2003、OntoNotes 5.0 與 WNUT17),結果顯示統一標籤空間後整體 F1 僅下降 0.3%。第二階段導入金融領域自建小規模資料,低資源場景下 F1 提升 2.1%,證實 ESNERA 在專業領域的適用性與效果(根據 arXiv:2508.06877v1)。開發流程優化與效能提升導入 ESNERA 可減少…