DocuSkyBETA 工具集 (目前僅能在 Firefox/Chrome 上運作) 個人首頁
本系統由國立臺灣大學資訊工程學系數位人文研究室開發,提供研究者建置個人雲端文字資料庫,並可透過工具集對文本進行多元與多面向運用。
請輸入帳號密碼:
帳號:
密碼:
本系統需經帳號申請才能使用。
若有任何問題或意見,請EMAIL:
docusky.contact@gmail.com,謝謝!

1. 將文本轉換為 DocuXml 格式的工具
  • 純文字文本點我杜協昌
    樣本(下載後解壓縮):西遊記文字檔 | 續紅樓夢文字檔
  • 有固定 metadata 格式的文本精簡版杜協昌 | UI 版謝博宇
    註:此工具可從文字檔案中,擷取以特定格式表達的詮釋資料。例如從 Kanseki Repository 漢籍網站可免費下載的文字檔案。
  • Markus converter點我曹又霖杜協昌
    註:MARKUS 是一個專為中文文本所設計的半自動標記工具。 Markus converter 可將 MARKUS 標記後的匯出檔(MARKUS file)轉換為 DocuSky 的建庫檔。
  • Excel 或 .csv 格式文本(表格欄位可對應到 metadata 或全文): 點我謝博宇
  • Metadata attachment: 輸入一份 DocuXml 檔案,然後利用 Excel 檔指定該如何增修 metadata 的工具: 點我陳琤
  • 重新彙整建庫 xml 的工具合併或挑選文獻集檔案杜協昌 | 管理 metadata 欄位杜協昌
  • 運用 Markus 與其他工具,建構具豐富功能文字庫的樣本檔(壓縮檔內,均包含工具操作後所產生的 xml 建庫檔):
    1. 太平廣記樣本:運用 Markus 轉換工具(不需將 passages 轉換為 documents),將多份 Markus 輸出檔合併於一個文獻集的例子
    2. 貞觀政要樣本:運用 Markus 轉換工具(以預設方式將 passages 轉換為 documents),將兩份 Markus 輸出檔轉換為多份文件,並置於單一文獻集的例子
    3. 本草經與列仙傳:運用 Markus 轉換工具(以預設方式將 passages 轉換為 documents),將三份含地理資訊的 Markus 輸出檔,合併於一個文獻集的例子
    4. 楊萬里書信樣本:套用 Markus 轉換工具(需轉換 passages 為 documents,並以 passageId 作為 document filename)與 metadata attachment tool,建構具後分類、使用者自訂 metadata、以及標籤分析的文字庫
點我可上載 XML 來建構文字庫 (檔案大小上限 120MB)

2. 文本分析工具
  • 文本詞彙頻率統計工具: 點我謝博宇
    說明:輸入文本和詞彙列表,這個工具將可從文本中,計算出列表中每個詞彙的出現統計。
    註:輸出的詞彙列表,可利用此工具將其轉換成特定格式的表格,方便轉接其他 graph visualization tools。
  • 文獻集字頻統計工具: 點我謝博宇
    說明:這個工具可對資料庫中的文獻集進行字頻統計,並將結果排比列出。
  • 文本風格分析工具: 點我謝博宇
    說明:這個工具實作了 DADH 2012 研討會, 〈利用文本採礦探討《紅樓夢》的後四十回作者爭議〉 論文中所使用到的各種方法。
    (下載: 論文 投影片 DH 2013 英文論文
  • 度量衡轉換工具: 點我傅莉雯
    說明:此工具可讀入文本,並將其中敘述度量衡的文字,轉成大家較為熟悉的單位制度(清制、日制、公制、英制)。
  • 詞夾子工具: 點我杜協昌
    說明:詞夾子是一個能夠從文本中,擷取特定類別詞彙的半自動方法。 這個工具延續 DADH 2015 研討會中,《半自動詞彙擷取:簡化的詞夾子方法以及其 JavaScript 元件的開發與應用》 所開發的詞夾子工具,讓它也能讀入 DocuSky 的文本來進行處理。
    (下載:論文

3. 尚在實驗階段的工具 (Proof of Concept)
  • Tag Statistics Tool: 點我謝博宇
    說明:這是 TermStatistics 工具的加強版。除了可將文本視為純文字來統計詞彙(n-gram)頻率,現在也可以對文本中的標記進行分析。
  • Geoport: 點我林農堯
    說明:這個工具是用來展示在 DocuSky 上,可以整合文本與地理資訊。文本需經過 Markus 進行標記, 且標記後的地理名詞需具有 placename_id(如此工具才能取得對應的地理座標資訊)。 經 Markus 標記後的輸出檔,還需透過工具轉換成建庫檔,上載建庫後才能被此工具所取用。
  • Document ColocationByDate Tool: 點我趙叡
    說明:這是將數個文獻集中的文件,依照年代或日期對齊排列,方便對讀的工具。
    實驗文本(春秋三傳):點我下載建庫 XML
  • DialogTaggingTool: 點我黃家富
    說明:利用這個工具,可以對文本中的人物對話進行標記,從而便利進行後續的分析。
    實驗文本(赤壁之戰對話標記):點我下載建庫 XML
  • FindRelDocsTool: 點我宋欣烜
    說明:給定一個文獻集,這個工具可讓使用者先利用關鍵詞查找出一些相關文件,然後利用相關度回饋 (Relevance Feedback) 的方法推薦其他相關文件。
    實驗文本(請下載後解壓縮):清實錄雍正時期 | 清實錄同治時期
4. 其他
  • gis: 點我林農堯
  • 工具開發,第一步就上手:點我下載杜協昌
    說明:解開壓縮檔後,可直接在本地硬碟用瀏覽器執行 sample.html。 該 html 檔相當簡單,內含呼叫 widget 的 JavaScript 程式碼。 使用者點選「點我」後,可登入並點選欲檢視的文獻集;此程式將以 alert() 方式顯示回傳的 JSON 物件。 工具開發者可以自由更改 sample.html 的內容,以實作想達成的功能。