清代臺灣行政檔案文件自動分類至歷史事件

作者
陳嘉翔
指導教授
項潔
畢業學校
臺灣大學
畢業系所
資訊工程學研究所
學位類別
碩士
畢業學年度
99
內容
「台灣歷史數位圖書館」(Taiwan History Digital Library,以下簡稱THDL) 是個為了服務台灣史研究者所建的全文資料庫。 將資料庫中的文件以橫軸為年代、縱軸為文件數量繒製出「年代文件分布圖」,發現圖中的趨勢線高頻處與歷史大事件的發生時間有密切的對應,因而使人想探究每條趨勢線的高頻處各是發生那些歷史事件。為達到此目的,必須先將資料庫中的清代台灣行政檔案之文件自動分類到歷史事件。 本研究蒐集「台灣小事典」與「臺灣歷史辭典記載的事件」,在初步分類整理後,選出四十一筆歷史事件。設計的自動分類方法是先用人工搜尋出能代表每個事件的「初始關鍵字」,接著設定某個「association rule之confidence參數值」為門檻,對從數個「人名權威資料庫」蒐集出來的「候選特徵關鍵詞」做篩選。再將檢索年代限定為該事件發生的年代,並對該事件的「初始關鍵字」和「特徵關鍵詞」作聯集來對THDL做查詢,最後將回傳文件判定為與該事件相關。 系統共分類了11826篇文件,占清代台灣行政檔案的32%。另外68%的文件為六部相關奏摺、官員任免奏摺、地方政府回報米糧價格、關稅報告等庶務性奏摺文件。 本論文分別挑選與「戴潮春事件」、「牡丹社事件」以及「清日甲午戰爭」三個事件發生年代相同的文件,用人工方式逐篇閱讀並判斷該文件是否與該事件相關。目的是作為ground truth和「使用自動分類方法得到的文件」做比較,以計算出recall和precision來評估本研究使用的自動分類方法之成效。 當t→q 為0.2時,牡丹社事件、清日甲午戰爭和戴萬生事件的recall分別為0.7241、0.9941、0.8928;Precision分別為0.6117、0.6175、0.6735。由於歷史學家在檢索文件時,偏好先得到所有的文件再逐篇閱讀分析 (查全導向),因此recall平均值超過80% 以及precision平均值超過60%的分類結果還算可以接受。
網址連結
發布日期:2018年09月13日 最後更新:2018年12月18日