CSV/Microsoft Excel Workbook檔案 - ThdlExportXml轉換工具

歡迎使用轉換工具!

本工具協助使用者建立資料庫內的文獻集。
依照下述的格式提供資料,並且輸入欄位名稱與XML標籤的對應關係,
即可輸出可供DocuSky建庫的XML檔案。
步驟一:載入資料表格
載入CSV或Microsoft Excel檔案
檔案格式:
※ CSV (Comma Separated Values, .csv) 檔案:
請用UTF-8編碼格式儲存檔案。
請用半形雙引號( " )含括資料,並用半形逗號( , )分隔。
檔案第一行的內容會成為資料欄位的標頭(Header)名稱。
範例:
"ID","Fruit","Amount"
"00001","Apple","40"
"00002","Orange","120"
"00003","Pear","25"
※ Microsoft Excel Workbook (.xls/.xlsx) 檔案:
檔案第一個橫列(row)的內容(A1, B1, C1, ...)會成為直欄(column)資料的標頭(Header)名稱。
若一直欄的標頭欄位為空白,則會忽略該直欄下的所有資料。
注意:請勿輸入含有合併儲存格的檔案。
選擇分頁:
步驟二:建立Metadata資料對應
目前檔案/資料表名稱:
2-1:建立與建庫檔格式(ThdlExportXML)的標籤對應
Metadata名稱 說明 對應表格欄位
corpus (required)
文獻集名稱。

filename (required)
文件檔案名稱,或是文獻集中的ID。

title
文件標題。
compilation_name
文件出處。
compilation_vol
文件出處的卷次。
author
作者。
topic
文件主題。
docclass
文件類型。
2-2:決定文件內文來源

※ 請選擇至少一個欄位的內容作為文件內文。

※ 如果需要串接多個欄位的內容作為內文,請點選下方的「新增內文對應欄位的按鈕」新增欄位。
對應欄位:
對內容進行 htmlEncode() 處理(注意:若取消勾選,使用者必須自行檢查 xml 有效性)
※ 請使用UTF-8格式儲存的純文字檔。

※ 選擇「從外部檔案取得內文資料」時,建立文獻集時會自動由"filename"欄位的內容尋找對應的檔案取得內文。

※ 載入檔案的檔名若與先前已經讀入的檔案相同,則新載入的檔內容會取代先前的檔案內容。
2-3:建立其他Metadata(需要加入上述以外的Metadata,可使用此選項)
※ 若您有DocuSky建庫檔規格外的Metadata資訊,請在此加入這些Metadata與資料表欄位的對應。點選「增加Metadata資訊」會在下方增加Metadata對應欄位。

※ Metadata的欄位命名長度至少為1個字元。第一個字元必須為半形的英文大小寫、底線(_)或冒號(:);剩餘字元必須為半形的英文大小寫、數字、句號(.)、底線(_)、連字號(-)。
步驟三:輸出建庫檔
已建立的文獻集
目前無已建立的文獻集
輸出ThdlExportXml
步驟四:上傳建庫檔至DocuSky建庫
登入DocuSky並上傳建庫檔
※ 請點選上面的「點我開啟DocuSky資料庫管理工具」登入DocuSky,並開啟個人資料庫管理畫面。

※ 在管理工具畫面中,點選「上載單份 ThdlExportXml 檔以建構文字資料庫」右側的「瀏覽/Browse」按鈕,選取要上傳的建庫檔(每次限制上傳單個建庫檔,檔案大小上限為100MB)。
在「文字庫名稱」欄位幫資料庫命名後,點選「開始上傳」將檔案傳至DocuSky進行建庫。

※ 建庫工作執行後,工具畫面會即時顯示當前的建庫進度。所需時間依上傳檔案大小與當前系統使用流量而異。