DocuSkyBETA (目前僅能在 Firefox/Chrome 上運作) 我的資料庫
首頁 建庫工具 建庫樣本 文本分析工具 GIS 工具 說明文件 討論群組 英文版
文本分析工具 (Text Analytics Tools)
這個網頁提供一些工具,可以讓您對文本進行詞彙擷取、標記分析、文本風格分析、以及其他的應用。
    實用型工具
  • Tag/Term Statistics Tool: 標記與詞彙統計分析謝博宇
    說明:這是 Term Statistics Tool 的加強版。除了可將文本視為純文字來統計詞彙(n-gram)頻率,現在也可以對文本中的標記進行分析。
    下載關鍵詞列表(主要用於 DrugsDB 實驗): 藥名  |  病名
  • Aligned Reading Tool (text co-location): 對讀工具賴思頻
    說明:這個工具可讀入多份文獻集,利用文件中的 align tags 來對列文件的段落,方便使用者進行文件對讀。
    下載建庫樣本檔: 春秋三傳  |  兩岸高中歷史  |  聖經羅馬書
  • Text Stylish Analysis Tool: 文本風格分析工具謝博宇
    說明:這個工具實作了 DADH 2012 研討會, 〈利用文本採礦探討《紅樓夢》的後四十回作者爭議〉 論文中所使用到的各種方法。
    (下載: 論文投影片 DH 2013 英文論文
  • Corpus Grams (CG) Tool: 文獻集 n-gram 字頻統計工具謝博宇杜協昌
    說明:這個工具可對資料庫中的文獻集進行字頻統計,並將結果排比列出。 兩文獻集比對 n-grams 時,還可透過〈利用文本採礦探討《紅樓夢》的後四十回作者爭議〉論文的採礦函數,計算兩邊頻率(比例)差異大的 grams。
  • Phonogram Term Statistics: 拼音文本詞彙統計工具鄭宇軒賴思頻
    說明:本工具僅適用拼音文本。


    實驗或展示性工具
  • FindRelDocsTool: 點我宋欣烜
    說明:給定一個文獻集,這個工具可讓使用者先利用關鍵詞查找出一些相關文件,然後利用相關度回饋 (Relevance Feedback) 的方法推薦其他相關文件。 工具中附有操作的簡單說明。
    實驗文本(請下載後解壓縮):清實錄雍正時期 | 清實錄同治時期
  • Metric Conversion Tool: 度量衡轉換工具傅莉雯
    說明:此工具可讀入文本,並將其中敘述度量衡的文字,轉成大家較為熟悉的單位制度(清制、日制、公制、英制)。
  • Text Comparison: 文本比對莊宜蓁
    說明:對兩份文本利用 LCS 進行比對,可輸出 Align tags。
    實驗性質的表格型工具
  • NoteTable Tool: 點我黃皇堯
    說明:這個工具是黃皇堯同學的碩士論文成果。是個在表格型資料上加入個人筆記,並進行管理和應用的工具。 這項工具具有連結兩份表格的能力(例如,連結測試樣本檔中的「立法院提案表」和「提案詳細法條」)。
    下載測試樣本檔: 墓葬資料-山西(已移除)  |  立法院提案表  |  提案詳細法條
  • Shared Model: 表格型資料視覺化呈現與互動周柳村
    說明:Shared Model 是周柳村同學的碩士論文成果,主要目的是用來處理表格資料視覺化呈現與使用者對各種視覺化圖形的操作和互動。 這個工具展示了如何利用 Shared Model 來讓使用者做操作,並讓開發者能夠利用說明文件來方便地在頁面中加入不同的視覺化呈現元件。
    下載測試樣本檔: 墓葬資料-浙江(已移除)  |  台北市各區人口統計表
本開放平台由國立臺灣大學資訊工程學系數位典藏與自動推論實驗室研發, 提供人文學術研究的材料建庫與各式分析工具。 目前僅能在 Firefox/Chrome 上運作。