純文字檔案-ThdlExportXml轉換工具
DocuSky首頁
工具簡介
Step 1
讀入文本資料
Step 2
指定轉換規則
Step 3
輸出建庫檔/上傳
歡迎使用轉換工具!
本工具能協助使用者建立 ThdlExportXml 檔案。
點選下方的「開始」鍵,依循各個步驟進行處理。
開始
★
本工具尚未提供使用說明,有待補上。
★
點我取得練習使用此工具的一些測試資料
。
步驟一:讀入文本資料
此處協助使用者建立資料庫內的文獻集。
資料庫內可以有數個文獻集,而一個文獻集由數個文字檔的內容所組成。
● 文獻集名稱:
● 選擇要放入該文獻集的純文字檔案:
選擇檔案
建立/加入文獻集
(若名稱與現有的文獻集相同,會將檔案附加至該文獻集)
已建立的文獻集
目前無已建立的文獻集
回首頁
下一步
步驟二:內容文字轉換與xml標籤對應
此處使用者可以進行原文字檔內容的轉換,以及指定與 ThdlExportXml標籤的文字內容。
將上欄的指令方塊拖曳到下欄中就可以建立一組轉換指令。
已經建立的轉換指令也可以在欄位中拖曳以調換處理順序。
建立的指令可以輸出存檔,可供下次時直接讀入工具。
從本機檔案讀入轉換規則
(可選擇多項規則,讀入後依規則名稱順序排列)
● 選擇轉換規則JSON(.json)檔案:
點我取得樣本規則檔
選擇檔案
● 讀入規則檔:(注意:讀入時會先清除當前建立的所有轉換規則!)
點我讀入規則檔
轉換規則基本資訊
● 轉換規則名稱:
● 規則簡介:
新增轉換規則
若要增加新規則,請從下列規則列選擇所需的指令,並將該動作列拖曳到「已建立的轉換規則」區塊。
點我了解各指令的詳細功能
內容取代
RegExp規則:
取代字串:
內容取代(分行檢索)
RegExp規則:
取代字串:
從內文取得Meta Data
RegExp規則:
標籤名稱:
compilation_name
compilation_vol
title
author
topic
geo
geo_longitude
geo_latitude
docclass
docclass_aux
doctype
doctype_aux
book_code
time_orig_str
time_varchar
time_norm_year
time_norm_kmark
year_for_grouping
time_dynasty
date_not_before
date_not_after
date_number
doc_seq_number
doc_source
從檔名取得Meta Data
RegExp規則:
標籤名稱:
compilation_name
compilation_vol
title
author
topic
geo
geo_longitude
geo_latitude
docclass
docclass_aux
doctype
doctype_aux
book_code
time_orig_str
time_varchar
time_norm_year
time_norm_kmark
year_for_grouping
time_dynasty
date_not_before
date_not_after
date_number
doc_seq_number
doc_source
已建立的轉換規則
程式轉換時,會依由上而下的順序執行轉換規則。
點選規則表框右上方的"X"按鈕,可以將該條規則刪除。
若要修改規則順序,可以拖曳轉換規則的表框改變該轉換規則的順位。
檢查目前規則
清除所有規則
輸出規則檔案
上一步
下一步
步驟三:輸出 ThdlExportXml 檔案,並上傳至DocuSky
為輸出檔案命名,並點選下方的「輸出 ThdlExportXml」按鈕即可輸出檔案存檔。
若有還需要修正的部份,可回到前面步驟。
輸出建庫檔
● 輸出檔案名稱:
儲存 ThdlExportXml 建庫檔
上傳至DocuSky建庫
點我建構或刪除文字庫
(檔案大小上限 100MB)
以下為一些已轉為 ThdlExportXml 的樣本檔(下載 xml 檔後,點擊上方按鈕來建庫):
紅樓夢一百二十回
:《紅樓夢》全文,不含 metadata 與 tagging。
翰林版國小課文
:翰林版國小課文,不含 metadata 與 tagging。
清實錄康熙時期臺灣相關條目
:除了《清實錄臺灣史資料專輯》外,另包含歷史系翁稷安博士認為與臺灣相關的條目。有 metadata 但沒有 tagging,可測試後分類的功能。
THDL古契書200件
:從 THDL 系統輸出的 200 件古契書文本。具有 metadata 與 tagging,可測試後分類與詞頻分析的功能。
上一步