純文字檔案-ThdlExportXml轉換工具

歡迎使用轉換工具!

本工具能協助使用者建立 ThdlExportXml 檔案。
點選下方的「開始」鍵,依循各個步驟進行處理。

本工具尚未提供使用說明,有待補上。
點我取得練習使用此工具的一些測試資料

步驟一:讀入文本資料

此處協助使用者建立資料庫內的文獻集。
資料庫內可以有數個文獻集,而一個文獻集由數個文字檔的內容所組成。
● 文獻集名稱:
● 選擇要放入該文獻集的純文字檔案:
(若名稱與現有的文獻集相同,會將檔案附加至該文獻集)

已建立的文獻集

目前無已建立的文獻集

步驟二:內容文字轉換與xml標籤對應

此處使用者可以進行原文字檔內容的轉換,以及指定與 ThdlExportXml標籤的文字內容。
將上欄的指令方塊拖曳到下欄中就可以建立一組轉換指令。
已經建立的轉換指令也可以在欄位中拖曳以調換處理順序。
建立的指令可以輸出存檔,可供下次時直接讀入工具。

從本機檔案讀入轉換規則(可選擇多項規則,讀入後依規則名稱順序排列)

● 選擇轉換規則JSON(.json)檔案: 點我取得樣本規則檔
● 讀入規則檔:(注意:讀入時會先清除當前建立的所有轉換規則!)

轉換規則基本資訊

● 轉換規則名稱:
● 規則簡介:

新增轉換規則

若要增加新規則,請從下列規則列選擇所需的指令,並將該動作列拖曳到「已建立的轉換規則」區塊。
內容取代
RegExp規則:
取代字串:
內容取代(分行檢索)
RegExp規則:
取代字串:
從內文取得Meta Data
RegExp規則:
標籤名稱:
從檔名取得Meta Data
RegExp規則:
標籤名稱:

已建立的轉換規則

程式轉換時,會依由上而下的順序執行轉換規則。
點選規則表框右上方的"X"按鈕,可以將該條規則刪除。
若要修改規則順序,可以拖曳轉換規則的表框改變該轉換規則的順位。

步驟三:輸出 ThdlExportXml 檔案,並上傳至DocuSky

為輸出檔案命名,並點選下方的「輸出 ThdlExportXml」按鈕即可輸出檔案存檔。
若有還需要修正的部份,可回到前面步驟。

輸出建庫檔

● 輸出檔案名稱:

上傳至DocuSky建庫

點我建構或刪除文字庫 (檔案大小上限 100MB)

以下為一些已轉為 ThdlExportXml 的樣本檔(下載 xml 檔後,點擊上方按鈕來建庫):
  • 紅樓夢一百二十回:《紅樓夢》全文,不含 metadata 與 tagging。
  • 翰林版國小課文:翰林版國小課文,不含 metadata 與 tagging。
  • 清實錄康熙時期臺灣相關條目:除了《清實錄臺灣史資料專輯》外,另包含歷史系翁稷安博士認為與臺灣相關的條目。有 metadata 但沒有 tagging,可測試後分類的功能。
  • THDL古契書200件:從 THDL 系統輸出的 200 件古契書文本。具有 metadata 與 tagging,可測試後分類與詞頻分析的功能。