書目資料中著者姓名歧異性之解析

作者
謝其男
指導教授
陳光華
畢業學校
臺灣大學
畢業系所
圖書資訊學研究所
學位類別
碩士
畢業學年度
99
內容
在檢索大量的學術資訊時,使用者經常會面臨到著者歧異性的問題,使得對同名著者群的解析成為一項重要的研究課題。相較於前人研究,本研究充分應用文獻書目資料的資訊進行辨識工作,且不使用書目資訊以外的資訊。因此,我們使用「共同著者姓名(C)」、「文獻題名(T)」、「期刊題名(J)」、「出版年(Y)」、「頁數(P)」等五項特徵資訊,其中「出版年」與「頁數」從未有其他研究使用過。本研究分別使用監督式學習方法與非監督式分類方法,探討總共28項不同的特徵資訊組合,分別對著者姓名歧義性解析的正確率。 研究發現「期刊題名(J)」與「共同作者(C)」是特別有效的特徵資訊,其中「期刊題名(J)」無論在各種方法中都展現重要性,而「共同作者(C)」則主要在使用支持向量機(Support Vector Machine,SVM)方法時十分出色。另外,「出版年(Y)」與「頁數(P)」在與其他特徵資訊的組合明顯地提升歧義性解析的正確率,兩者以「出版年(Y)」的輔助效果較為突出(約平均提升2.5%),此外出版年與頁數對歧異性解析的影響效果在使用K-means分群方法時的特別明顯(約5%)。 在前人研究中經常被使用的特徵資訊組合「CTJ」並不一定能取得最佳的正確率,透過不同分類方法發現其他特徵組合亦能達到最佳的正確率,如JYP、JY、CJ等特徵組合。最後根據資料集的規模與複雜度進行辨識結果的比較中發現,當測試的資料集日益龐雜時,僅倚靠引用文獻的書目資料則難以提供充足的辨識效果。顯現在未來研究中,若要有效地解決人名歧異性之問題,必須從書目資料的資訊向外與其他資訊進行連結與對應,以獲取更明確的作者特徵。
網址連結
發布日期:2018年09月13日 最後更新:2018年12月18日