台灣古契書自動分類與依分類定義契書角色

作者
盧家慶
指導教授
項潔
畢業學校
臺灣大學
畢業系所
資訊工程學研究所
學位類別
碩士
畢業學年度
96
內容
台灣古契書是反映民間社會生活的第一手資料,同時也是研究臺灣歷史最重要的第一手資料。蒐集古契書並進行數位典藏除了可以保存契書資料外,也能讓我們透過蒐集的契書資料來瞭解清代臺灣地權轉移與開發史。 由臺灣大學資訊工程所數位典藏與自動推論實驗室和臺灣大學圖書館合作建置的臺灣歷史數位圖書館(Taiwan History Digital Library, THDL)是一個全文數位圖書館,在古契書方面目前已收集由國立台中圖書館及國立台灣大學圖書館所數位化的契書全文共21,399件,其中有21,121件契書具詮釋資料(metadata),其契書來源包括已刊印古契書、臺灣總督府檔案、岸裡大社、新竹北門鄭家、北市文獻會、台大南部古契書等資料群。面對如此龐大的契書資料需要一套好的分類方法讓使用者對整體契書資料能快速地瞭解,並能透過分類有效地使用契書資料。 本研究嘗試利用各數位化單位已經建置完成的詮釋資料來對各古契書資料群進行一致的自動分類。在各資料群詮釋資料中僅有描述契書性質的欄位而沒有精確的分類欄位,且描述性質的標準不一致。我們先參考各專家對古契書建議的分類方法決定了一個初始的分類架構,接著找出各詮釋資料中相當於”契書性質分類”的欄位、搭配每篇古契書的標題,將一篇篇古契書自動對應到上述分類架構中的某一分類。最後為特定分類重新賦予契書關係人物一致的角色。 將前述的自動分類方法與特定分類下角色賦予應用在THDL中21,121件具詮釋資料的契書上,可以將20,698件成功分類,而有423件契書需要經由人工處理分類。同時也發現到在原有14個分類外還可以新增租穀與契尾兩個類別。至於角色賦予由於成果不彰,需重新找尋適合的解決方法,比如說以詮釋資料搭配契書全文的方式。
網址連結
發布日期:2018年09月13日 最後更新:2018年12月18日