DocuSky
BETA
從建庫 XML 中,挑選文獻集與文件,再將它們輸出為新建庫 XML 檔的工具
首頁
|
我的資料庫
|
English
說明:
此工具可讀入多份 ThdlExportXml 檔,讓使用者挑選其中的文獻集(可利用檔名篩選欲輸出的文件),並將這些文獻集彙整成單一檔案。 您也可以利用這份工具將文件中的段落(paragraphs,相當於 Markus 的 passages)轉換成獨立的文件。
[註]: 此工具目前只能將多個 "單一corpus文件" 合併成一份 "複數corpus文件"
1. 讀入 ThdlExportXml 檔案:
選擇檔案:
已載入的檔案:
檔名
文件數
檔案中所包含的參考資料或文獻集
2. 若想對步驟 1 所勾選文獻集文件進行篩選,請勾此選項:
利用檔名過濾輸出文件
請指定欲篩選出來的檔名列表(檔名間以 '|' 或換行字元隔開)
-- 注意:若沒有指定檔名,仍將輸出完整的文獻集
特殊指令(在一行指定):
!Random:100 可亂數取 100 篇文件,!FileRange:101-1100 可取得第 101 到第 1100 篇文件
若檔名尾端為 .txt, .html, .htm, .xml,先移除這些 file extension 後再進行比對(預設模式)
3. 若想將輸出的文件通通彙整到新的單一文獻集,請勾此選項:
將挑選的文件放入單一文獻集
請輸入文獻集名稱:
- 在設定單一文獻集名稱前,是否需先將舊文獻集名稱拷貝到以下欄位(注意,會覆蓋掉舊的欄位值)?
不需拷貝
compilation_name
author
docclass
doctype
book_code
doc_source
doc_topic_l1
doc_category_l1
[註]:
工具會合併多份文件的 corpus settings。若後分類欄位或 tag 重複,則會以第一份文件之設定為主
4. 若想將文件中的段落 <Paragraph> 轉換成個別獨立的新文件,請勾此選項:
將文件中的段落轉換成文件
(預設值)使用原先的文件檔名,並在其後添加 '_p0000',其中 '0000' 為段落序號。
若段落包含有 RefId,則以 RefId 作為新文件的檔名,否則依照預設方式進行處理。
5. 輸出:
DocuXml
tsv (filename and metadata)
欲儲存的建庫檔名:
點我儲存