DocuSkyBETA (目前僅能在 Firefox/Chrome 上運作) 我的資料庫
首頁 建庫工具 建庫樣本 文本分析工具 GIS 工具 說明文件 討論群組 英文版
建構資料庫 (Constructing a Database)
您需要有 DocuXml 檔案才能建庫。這個網頁提供一些與 DocuXml 建構相關的工具。
  • 若已經有 DocuXml 檔案: 點我上載 DocuXml 建庫 (檔案大小上限 120MB)
  • 若資料來源為純文字文本點我將文本轉為 DocuXml杜協昌 | 更新版羅鈺杰
    純文字樣本(下載後解壓縮,並以解壓後的文字檔作為工具的輸入): 西遊記文字檔 | 續紅樓夢文字檔
    - 若資料來源為有固定 metadata 格式的文本UI 版謝博宇 | 進階版杜協昌
      註:此工具可利用 Regular Expression 從文字檔案中擷取詮釋資料。 它可處理從 Kanseki Repository 漢籍網站下載的文字檔案。
  • 若資料來源為 Excel (.xls, .xlsx) 檔案或 .csv 格式文本舊版謝博宇 | 新版 (2020 版)賴思頻
    註:此工具可將儲存於 Excel 的表格資料轉換成 DocuXml。
  • 從 CBETA/CTEXT/KANRIPO/RISE/WikiSource 取得文本,並產生 DocuXml 的工具CBETA杜協昌 | CTEXT杜協昌 | KANRIPO杜協昌 | RISEPascal Belouin (Max Planck Institute) | WikiSource李旭恩 | WikiSource2李旭恩
    註:CTEXT 有文本下載的限制。使用者必須在授權的網域內,才能透過以上的 CTEXT 連結下載全文。
  • M2D (Markus to DocuXml) -- 將 MARKUS 匯出檔轉換為 DocuXml 的工具點我 林凡煒杜協昌曹又霖
    註:MARKUS 是一個專為中文文本所設計的半自動標記工具。 Markus converter 可將 MARKUS 標記後的匯出檔(MARKUS file)轉換為 DocuSky 的建庫檔。
  • D2M (DocuXml to Markus) Converter點我曹又霖林凡煒
    說明:此工具可讓使用者將 DocuXml 轉換為 MARKUS files。一種使用情境,是先利用 DocuXml Downloader 將資料庫文本下載成 DocuXml 檔,然後利用此工具轉成 MARKUS 可匯入的 HTML 檔。
  • MA (Metadata Attachment) tool點我陳琤
    註:這工具可在 DocuXml 檔案上,加上利用 Excel 檔所指定的 metadata。
  • CT (Content Tagging) tool(內容標記工具)點我杜協昌
    註:這工具可輸入一或多份 DocuXml 檔案,然後利用 Excel 檔所指定的詞彙,對 DocuXml 文本內容進行詞彙標記後輸出。
  • Corpus Datafie Management點我杜協昌
    說明:此管理工具,可讓使用者將文件的附圖傳上 DocuSky。
    註:文件和附圖之間的關係,將透過圖片的檔名,和 <doc_attachment> 標籤(可利用 metadata attachment tool 加上此標籤) 所指定的內容來進行連結。
  • DocuXml Downloader點我林凡煒
    說明:此工具可讓使用者將文獻集的文件下載儲存為 DocuXml。
  • DocuXml Editor點我黃志揚宋欣烜
    說明:此工具可讀入一份 DocuXml 檔,修改其中的文件、詮釋資料、標記資訊,然後輸出編輯後的 DocuXml 檔。
  • Term Clipper: 詞彙擷取 2020 版杜協昌
    說明:詞彙擷取 2020 版:對數年前「詞夾子工具」的介面操作進行簡化,並提供利用正規表達式擷取詞彙的能力。
    補充:「詞夾子」是一個能夠從文本中,擷取特定類別詞彙的半自動方法。(點我下載論文)
  • RefLookupTools -- 查詢人名、地名、時間的工具們查詢 CBDB, DILA 人名杜協昌 | 查詢 (harvard) chgis, dila, twgis 地名馮永輝 | 中西曆轉換杜協昌
  • 其他的 DocuXml 小工具合併或篩選文獻集的檔案杜協昌 | 管理 metadata 欄位杜協昌

本開放平台由國立臺灣大學資訊工程學系數位典藏與自動推論實驗室研發, 提供人文學術研究的材料建庫與各式分析工具。 目前僅能在 Firefox/Chrome 上運作。