講者介紹/
Donald Sturgeon(德龍),英國杜倫大學資訊工程學系助理教授。東吳大學碩士、香港大學博士,曾任哈佛大學費正清中國研究中心博士後研究員。研究興趣包括:自然語言處理、文本再利用分析、數位人文等。
從 2005 年起,他創建和維護了
「中國哲學書電子化計劃」,一個收錄戰國時期至清代末年文獻資料的數位圖書館。
主題/中國歷史數據眾包
自從 2005 年 ctext.org 公開於網路到現在,已有廣大讀者接觸到數位文本,也更好地發揮了數位文本的優勢。眾包(crowdsourcing)和 API(應用程式介面)的有效利用,已表明了基礎設施的重要性:這些基礎設施能讓用戶跨越地理位置和社群,致力於共同目標。
本場介紹正在進行中的工作,此工作試圖把眾包和 API 應用到文本語意內容和歷史層面。其中有兩項密切相關的工作需要平行進行:(一)創立和維護原典中的命名實體標記;(二)創立和維護一個知識圖譜,記載有關這些實體的相關知識及其原典出處。所得數據由API分享,而命名實體紀錄各種專業數據庫的相關標識符。由此,不但能為 ctext.org 的一般用戶提供脈絡化的閱讀環境,同時可以在數位人文研究過程中減少重複標記的工作。