ExtractMetaAndComposeXml 工具可套用的一些 JSON 規則檔
標題簡要說明JSON 規則檔
預設規則 將純文字的換行,置換為 html 的 <br/>,並將中文直式的標點換成橫式標點 下載
MPIWG DrugsDB 文字檔處理 臺灣大學與德國馬克斯普朗克學院(Max Planck Institute for the History of Science)合作的計畫。這份規則可從 Kanseki Repository 漢籍文本中,擷取標題、出處與卷期,並清除一些雜訊 下載
Kanripo Sample Rules #1 Kanseki Repository 漢籍文本中,擷取標題、出處與卷期(以文本的 TITLE 作為文本名稱),並清除一些雜訊 下載
Kanripo Sample Rules #2 Kanseki Repository 漢籍文本中,擷取標題、出處與卷期(以文本的 TITLE 作為文本名稱),清除一些雜訊,並對楚辭中的虛字進行自動標記 下載