社會科學研究中的文字探勘應用:以文意為基礎的文件分類及其問題

作者
陳世榮
出版日期
2015.12
內容
隨著電子典藏技術的精進,文字探勘技術逐漸受到重視,本文以社會科學研究在文意區別上的需求,評估監督式機器學習對非結構、複雜文本的分類效果,並就所見問題提出分析與建議。本文從文字探勘與內容分析文意區別上的差異與共通性出發,繼而以新聞報導為分析資料,針就特定文件意向,遵循一般文字探勘程序,以支持向量機與簡易貝式分類器執行文件分類評估。分析結果指出,文字探勘對於複雜文意的判讀效果值得肯定,但經由共詞網絡分析也發現,文件的編撰風格將影響文件分類的效果。建議研究者在資料處理初期,應反覆評估研究目的、資料特性與分類器模型間的契合度。
刊名
人文及社會科學集刊
卷期
第27卷第4期
頁數
頁683-718
網址連結
發布日期:2018年09月13日 最後更新:2018年12月18日