DocuSkyBETA 建構純文字內容 DocuXml,以及將該 xml 檔上載建庫的小工具 首頁 | 我的資料庫 | English
說明:這個工具可以讓您指定UTF-8 編碼格式的文字檔,將它們輸出為本地端的 XML 檔,便於建構個人資料庫。
 您可將多份文字檔打包成一個文獻集,並指定這個文獻集的名稱。
  * 若文字檔並非 UTF-8 編碼,該如何處理?

1. 從 UTF-8 純文字檔轉換成建庫檔:
請先指定文獻集名稱,再選擇該文獻集所欲包含的文字檔:
  • 文獻集名稱:
  • 文字檔:
已載入的文獻集:
已載入的檔案列表:
輸出的建庫檔名:


2. 上載 DocuXml 檔案,以建構個人文字庫(需有 DocuSky 帳號)
點我建構或刪除文字庫 (檔案大小上限 100MB)


以下為一些已轉為 DocuXml 的樣本檔(可直接下載 xml 檔後,點擊上方按鈕來建庫):
  1. 紅樓夢一百二十回:《紅樓夢》全文,不含 metadata 與 tagging。
  2. 翰林版國小課文:翰林版國小課文,不含 metadata 與 tagging。
  3. 清實錄康熙時期臺灣相關條目:除了《清實錄臺灣史資料專輯》外,另包含歷史系翁稷安博士認為與臺灣相關的條目。有 metadata 但沒有 tagging,可測試後分類的功能。
  4. THDL古契書200件:從 THDL 系統輸出的 200 件古契書文本。具有 metadata 與 tagging,可測試後分類與詞頻分析的功能。