標題 | 簡要說明 | JSON 規則檔 |
預設規則 |
將純文字的換行,置換為 html 的 <br/>,並將中文直式的標點換成橫式標點 |
下載 |
MPIWG DrugsDB 文字檔處理 |
臺灣大學與德國馬克斯普朗克學院(Max Planck Institute for the History of Science)合作的計畫。這份規則可從 Kanseki Repository 漢籍文本中,擷取標題、出處與卷期,並清除一些雜訊 |
下載 |
Kanripo Sample Rules #1 |
從 Kanseki Repository 漢籍文本中,擷取標題、出處與卷期(以文本的 TITLE 作為文本名稱),並清除一些雜訊 |
下載 |
Kanripo Sample Rules #2 |
從 Kanseki Repository 漢籍文本中,擷取標題、出處與卷期(以文本的 TITLE 作為文本名稱),清除一些雜訊,並對楚辭中的虛字進行自動標記 |
下載 |