這裡提供兩組測試
ExtractMetaAndComposeXml 工具的文本,它們都取自於
Kanseki Repository 漢籍網站。
使用者可直接利用輸出的 ThdlExportXml 檔來建庫。
- DrugsDB 樣本:
完整的 DrugsDB 文本,是由德國馬克斯普朗克學院 Michael Stanley-Baker(徐源)博士所蒐集,
其中主要的文本內容來自於 Kanripo 網站。以下連結提供少量的樣本,方便使用者練習工具的使用。
- 楚辭樣本:
以下文本取自 Kanseki Repository 網站所提供的《楚辭》、《楚辭補注》、《離騷草木疏》。
套用基本的規則檔後,可建構具全文檢索與後分類功能的文字庫。
相同的文本內容,也可套用不同的轉換規則。若套用以下的「楚辭虛字標記」規則檔,可建構具簡單詞頻分析效果的文字庫。
- 「楚辭虛字標記」規則檔:下載 json 檔 (在工具步驟二,讀入轉換規則時使用)
- 輸出檔:下載 xml 檔 (工具步驟一,三份文本使用相同的文獻集名稱;工具步驟二,套用「楚辭虛字標記」規則檔)