ExtractMetaAndComposeXml 工具的測試樣本
這裡提供兩組測試 ExtractMetaAndComposeXml 工具的文本,它們都取自於 Kanseki Repository 漢籍網站。
使用者可直接利用輸出的 ThdlExportXml 檔來建庫。
  1. DrugsDB 樣本:
    完整的 DrugsDB 文本,是由德國馬克斯普朗克學院 Michael Stanley-Baker(徐源)博士所蒐集, 其中主要的文本內容來自於 Kanripo 網站。以下連結提供少量的樣本,方便使用者練習工具的使用。
    • 文本檔:下載 zip 檔 (解壓縮後,在工具步驟一使用)
    • 規則檔:下載 json 檔 (在工具步驟二,讀入轉換規則時使用)
    • 輸出檔:下載 xml 檔 (這是利用此工具讀入以上文本與規則,轉換後所輸出的 ThdlExportXml 檔。)

  2. 楚辭樣本:
    以下文本取自 Kanseki Repository 網站所提供的《楚辭》、《楚辭補注》、《離騷草木疏》。
    套用基本的規則檔後,可建構具全文檢索與後分類功能的文字庫。
    • 文本檔:下載 zip 檔 (解壓縮後,在工具步驟一使用)
    • Kanripo 基本規則檔:下載 json 檔 (在工具步驟二,讀入轉換規則時使用)
    • 輸出檔:下載 xml 檔 (工具步驟一,三份文本使用不同的文獻集名稱)
    • 輸出檔:下載 xml 檔 (工具步驟一,三份文本使用相同的文獻集名稱)
    相同的文本內容,也可套用不同的轉換規則。若套用以下的「楚辭虛字標記」規則檔,可建構具簡單詞頻分析效果的文字庫。
    • 「楚辭虛字標記」規則檔:下載 json 檔 (在工具步驟二,讀入轉換規則時使用)
    • 輸出檔:下載 xml 檔 (工具步驟一,三份文本使用相同的文獻集名稱;工具步驟二,套用「楚辭虛字標記」規則檔)