清代臺灣行政檔案文件自動分類至歷史事件
作者 | |
---|---|
指導教授 | 項潔 |
畢業學校 | 臺灣大學 |
畢業系所 | 資訊工程學研究所 |
學位類別 | 碩士 |
畢業學年度 | 99 |
內容 | 「台灣歷史數位圖書館」(Taiwan History Digital Library,以下簡稱THDL) 是個為了服務台灣史研究者所建的全文資料庫。
將資料庫中的文件以橫軸為年代、縱軸為文件數量繒製出「年代文件分布圖」,發現圖中的趨勢線高頻處與歷史大事件的發生時間有密切的對應,因而使人想探究每條趨勢線的高頻處各是發生那些歷史事件。為達到此目的,必須先將資料庫中的清代台灣行政檔案之文件自動分類到歷史事件。
本研究蒐集「台灣小事典」與「臺灣歷史辭典記載的事件」,在初步分類整理後,選出四十一筆歷史事件。設計的自動分類方法是先用人工搜尋出能代表每個事件的「初始關鍵字」,接著設定某個「association rule之confidence參數值」為門檻,對從數個「人名權威資料庫」蒐集出來的「候選特徵關鍵詞」做篩選。再將檢索年代限定為該事件發生的年代,並對該事件的「初始關鍵字」和「特徵關鍵詞」作聯集來對THDL做查詢,最後將回傳文件判定為與該事件相關。
系統共分類了11826篇文件,占清代台灣行政檔案的32%。另外68%的文件為六部相關奏摺、官員任免奏摺、地方政府回報米糧價格、關稅報告等庶務性奏摺文件。
本論文分別挑選與「戴潮春事件」、「牡丹社事件」以及「清日甲午戰爭」三個事件發生年代相同的文件,用人工方式逐篇閱讀並判斷該文件是否與該事件相關。目的是作為ground truth和「使用自動分類方法得到的文件」做比較,以計算出recall和precision來評估本研究使用的自動分類方法之成效。
當t→q 為0.2時,牡丹社事件、清日甲午戰爭和戴萬生事件的recall分別為0.7241、0.9941、0.8928;Precision分別為0.6117、0.6175、0.6735。由於歷史學家在檢索文件時,偏好先得到所有的文件再逐篇閱讀分析 (查全導向),因此recall平均值超過80% 以及precision平均值超過60%的分類結果還算可以接受。 |
網址連結 |
發布日期:2018年09月13日 最後更新:2018年12月18日