基於詞性組合規則結合維基百科進行中文命名實體辨識與消歧義

作者
黃純敏
出版日期
2016.12
內容
傳統命名實體辨識多採用規則與機率的方法,然而礙於語義混淆特性與未知詞的增長,精確率難以有效提高。本研究藉由詞性組合定義命名規則,並加入姓名鏈結演算法及透過維基百科文本編輯特性,以協助辨識及消歧義。研究發現應用姓名鏈結機率公式結合句法規則,可大幅提高人名辨識精確率;對於「地名」/「組織名」,由於二者命名規則相似,過去研究需藉助詞庫及特殊詞幹集區別,本研究透過簡易地 名規則並結合維基輔助分歧。實驗結果顯示本研究在精確率、召回率、F-measure 分別達86.32%、75.33%、80.33%,相較於其他大規模規則的判斷研究,及採用人工標註結合HMM 機器學習的研究,本研究所歸納的規則不僅精簡,整體表現亦毫不遜色,尤其以精確率最為突出。
刊名
圖書資訊學研究
卷期
第11卷第2期
頁數
頁47-84
網址連結
發布日期:2018年09月13日 最後更新:2018年12月18日