DocuSkyBETA 建構純文字內容 DocuXml,以及將該 xml 檔上載建庫的小工具 (v2.4 測試版) 首頁 | 我的資料庫 | English
說明 1:這個工具可以讓您指定UTF-8 編碼格式的文字檔,將它們輸出為本地端的 XML 檔,便於建構個人資料庫。
 您可將多份文字檔打包成一個文獻集,並指定這個文獻集的名稱。
  * 若文字檔並非 UTF-8 編碼,該如何處理?
說明 2:(a) 自動分件: 1. 在文字檔中欲分件處輸入4個# (i.e. ####),便能實現自動分件的功能。
         2. 分件檔名預設為原始文件檔名依序加上編號(i.e. 原始文件檔名_xxx)。
         3. 分件檔名及內容皆可於檢視中更改,若無此需求亦可略過直接點擊儲存。
 (b) 自動分段: 1. 在文字檔中欲分段處輸入Enter或Return (文章頭尾可略),也就是空一行的意思,便能實現自動分段的功能。
         2. 系統預設文字檔每一行開頭超過2個全形(4個半形)空格則不分段只換行,利用此特性亦能實現自動分段的功能。

1. 從 UTF-8 純文字檔轉換成建庫檔:
請先指定文獻集名稱,再選擇該文獻集所欲包含的文字檔:
  • 文獻集名稱:
  • 文字檔:
已載入的文獻集:
已載入的檔案列表(分件數):
» 檢視及修改 UTF-8 純文字檔之檔名和內容:
Totals: 0 件
當前文獻集名稱:
使用說明
當前原始文件檔名:
使用說明
保留文字檔內容中的所有空格(包括段落前空格): 是 
輸出的建庫檔名:


 2. 上載 DocuXml 檔案,以建構個人文字庫(需有 DocuSky 帳號)
點我建構或刪除文字庫 (檔案大小上限 100MB)


以下為一些已轉為 DocuXml 的樣本檔(可直接下載 xml 檔後,點擊上方按鈕來建庫):
  1. 紅樓夢一百二十回:《紅樓夢》全文,不含 metadata 與 tagging。
  2. 翰林版國小課文:翰林版國小課文,不含 metadata 與 tagging。
  3. 清實錄康熙時期臺灣相關條目:除了《清實錄臺灣史資料專輯》外,另包含歷史系翁稷安博士認為與臺灣相關的條目。有 metadata 但沒有 tagging,可測試後分類的功能。
  4. THDL古契書200件:從 THDL 系統輸出的 200 件古契書文本。具有 metadata 與 tagging,可測試後分類與詞頻分析的功能。
使用說明
(1) 先在左上方下拉式選單選擇需要檢視的文獻集或文件。
(2) 原始文件/分件檔名(點擊兩下)及內文可依使用者需求做更改。
(3) 「新增」分件檔:a. 如欲指定「新增」分件檔插入位置,請勾選欲插入位置上方的分件。
           (e.g. 現有a.txt、b.txt兩分件檔,想要在這兩分件檔間插入「新增」分件檔,請將a.txt勾選起來)
          b. 如未指定「新增」分件檔插入位置,系統默認「新增」分件檔於末端。
(4) 「刪除」分件檔:將欲「刪除」分件檔勾選起來,即可刪除。
(5) 「自動分件」:將欲分件之文字檔勾選起來,並在此文字檔中欲分件處輸入4個# (i.e. ####)。
(6) 「範圍選取」:請勾選想要選取的範圍之首尾2個分件並按下「部分選取」,即可實現。
(7) 「批量改名」:a. 將所有勾選起來的文件根據第一個文件檔名依序加上編號重新命名。
         b. 系統默認編號從001開始,如果想從其他數字開始,請在第一個文件檔名後加上_xxx(三位數字)。
(8) 「確認文獻/文件」:將下拉式選單中已確認完成的文獻/文件用灰色標記起來,目的是為了避免使用者重複檢視,
           未使用並不影響最終輸出結果。
(9) 「儲存進度」:可將當前的分件進度以JSON檔儲存起來,下次要變更時便毋須重新載入所有文字檔。