自動化資料豐富程序

作者
宋浩
指導教授
項潔
畢業學校
國立臺灣大學
畢業系所
資訊工程學研究所
學位類別
博士
畢業學年度
104
內容
無論是在數位典藏資料庫、數位圖書館、或數位博物館的領域,詮釋資料的建立都是一個重要的工作,同時也經常是耗費最多人力時間成本的項目。然而,建立詮釋資料並不是一件簡單的工作,建立者需要對某個特定領域的知識有深入的了解,才能產出豐富、正確、精準的詮釋資料,進而詳實傳達數位資源的重要性。 正因為詮釋資料必須透過大量人力進行建置,因此在實務上經常採用「聯合目錄」的形式,亦即由原始資料典藏單位負責建立典藏物的詮釋資料,再提交至中央主管單位統一提供可整合檢索、瀏覽的介面。由原始資料典藏單位各別建立詮釋資料與數位化的過程稱為「分散建置」,而由中央整合並提供使用介面則稱為「集中管理」,此模式是在綜合考量時間、人力、資源等因素後所產生的平衡點,其衍生的問題則是詮釋資料的填寫方式難以趨於一致,進而導致後續在瀏覽、檢索、與資料鏈結上的困難。 本研究試圖提出一套資料前置處理的框架:ADEPT (Automated Data Enrichment Processing Technology),目標是將符合都柏林核心集的輸入資料進行自動化的前置處理與豐富化。ADEPT框架中包含了三個主要模組,分別是:驗證模組、正規化模組、專有名詞擷取模組。透過這些模組處理過的資料將趨向一致性、符合統一的格式,同時具備人事時地物等重要資訊。除此之外,豐富化後的資料將更適合鏈結資料(linked data),不但可與網際網路上的相關資料相互連結,更可讓詮釋資料進一步被加值利用,達到全民共享的目標。
網址連結
發布日期:2018年09月13日 最後更新:2018年12月18日