-
若已經有 DocuXml 檔案:
點我上載 DocuXml 建庫 (檔案大小上限 120MB)
-
若資料來源為純文字文本:
點我將文本轉為 DocuXml杜協昌 |
更新版羅鈺杰
純文字樣本(下載後解壓縮,並以解壓後的文字檔作為工具的輸入):
西遊記文字檔 |
續紅樓夢文字檔
- 若資料來源為有固定 metadata 格式的文本:
UI 版謝博宇
|
進階版杜協昌
註:此工具可利用 Regular Expression 從文字檔案中擷取詮釋資料。
它可處理從 Kanseki Repository 漢籍網站下載的文字檔案。
-
若資料來源為 Excel (.xls, .xlsx) 檔案或 .csv 格式文本:
舊版謝博宇 |
新版 (2020 版)賴思頻
註:此工具可將儲存於 Excel 的表格資料轉換成 DocuXml。
-
從 CBETA/CTEXT/KANRIPO/RISE/WikiSource 取得文本,並產生 DocuXml 的工具:
CBETA杜協昌 |
CTEXT杜協昌 |
KANRIPO杜協昌 |
RISEPascal Belouin (Max Planck Institute) |
WikiSource李旭恩 |
WikiSource2李旭恩
註:CTEXT 有文本下載的限制。使用者必須在授權的網域內,才能透過以上的 CTEXT 連結下載全文。
-
M2D (Markus to DocuXml) -- 將 MARKUS 匯出檔轉換為 DocuXml 的工具:
點我
林凡煒杜協昌曹又霖
註:MARKUS 是一個專為中文文本所設計的半自動標記工具。
Markus converter 可將 MARKUS 標記後的匯出檔(MARKUS file)轉換為 DocuSky 的建庫檔。
-
D2M (DocuXml to Markus) Converter:
點我曹又霖林凡煒
說明:此工具可讓使用者將 DocuXml 轉換為 MARKUS files。一種使用情境,是先利用 DocuXml Downloader
將資料庫文本下載成 DocuXml 檔,然後利用此工具轉成 MARKUS 可匯入的 HTML 檔。
-
MA (Metadata Attachment) tool:
點我陳琤
註:這工具可在 DocuXml 檔案上,加上利用 Excel 檔所指定的 metadata。
-
CT (Content Tagging) tool(內容標記工具):
點我杜協昌
註:這工具可輸入一或多份 DocuXml 檔案,然後利用 Excel 檔所指定的詞彙,對 DocuXml 文本內容進行詞彙標記後輸出。
-
Corpus Datafie Management:
點我杜協昌
說明:此管理工具,可讓使用者將文件的附圖傳上 DocuSky。
註:文件和附圖之間的關係,將透過圖片的檔名,和 <doc_attachment> 標籤(可利用 metadata attachment tool 加上此標籤)
所指定的內容來進行連結。
-
DocuXml Downloader:
點我林凡煒
說明:此工具可讓使用者將文獻集的文件下載儲存為 DocuXml。
-
DocuXml Editor:
點我黃志揚宋欣烜
說明:此工具可讀入一份 DocuXml 檔,修改其中的文件、詮釋資料、標記資訊,然後輸出編輯後的 DocuXml 檔。
-
Term Clipper:
詞彙擷取 2020 版杜協昌
說明:詞彙擷取 2020 版:對數年前「詞夾子工具」的介面操作進行簡化,並提供利用正規表達式擷取詞彙的能力。
補充:「詞夾子」是一個能夠從文本中,擷取特定類別詞彙的半自動方法。(點我下載論文)
-
RefLookupTools -- 查詢人名、地名、時間的工具們:
查詢 CBDB, DILA 人名杜協昌 |
查詢 (harvard) chgis, dila, twgis 地名馮永輝 |
中西曆轉換杜協昌
-
其他的 DocuXml 小工具:
合併或篩選文獻集的檔案杜協昌 |
管理 metadata 欄位杜協昌
|