應用分群技術於同義書目之過濾與最佳化
作者 | |
---|---|
指導教授 | 楊燕珠 |
畢業學校 | 大同大學 |
畢業系所 | 資訊經營學系(所) |
學位類別 | 碩士 |
畢業學年度 | 98 |
內容 | 機讀編目格式(MARC21以下簡稱為書目格式)除了為全球圖書館建立書目資料庫之標準規範外,其功能還可以用來著錄與描述圖書文獻的內容。因此所有圖書館自動化系統多以此格式作為儲存標準、並且以此作為提供文獻檢索以及書目資料交換之依據。而我國之書目格式也因為國情的不同,由國立中央圖書館於民國七十一年制定《中國機讀編目格式》(CMARC),作為我國書目發展之標準。由於圖書出版之推陳出新資料眾多,因此大部分的書目資料是透過館際合作來進行書目的交流,但由於書目編撰之工作是由人工進行,因此難免會有輸入錯誤或因為編目人員對於編目標準的認定不同而造成資料誤植,使得同一本書會有不同的多筆書目紀錄,導致書目資料混亂,參考價值大打折扣。
也由於書目資料眾多格式特殊,因此如何透過資訊技術協助進行書目資料之整理,將是一大挑戰。所以本文提出將書目資料依照其格式欄位之重要性,將之分別給予不同權重,轉換為向量資料,然後進行向量空間的動態資料分群,同一集群內的資料代表類似的書目。之後集群內書目資料進行相似度計算,並依據所設定之門檻值選出可能為同一本書的重複同義書目,最後經過分數計算,過濾較為不良的書目,保留最佳化的書目。
根據實驗結果顯示,本研究提出的方法透過分群技術,並依書目資料之特性,選擇具關鍵判別欄位,並且給予不同欄位資料加重其權重比例,作為比較之標準,在同義書目之過濾與最佳化整理上,相較於過去規則式的過濾,不但比較精準,並且可以大大縮減比對時間,為重複書目的整理提供新的方向,相信再經過細部調整,未來可以實際提供圖書館使用。 |
網址連結 |
發布日期:2018年09月13日 最後更新:2018年12月18日