關於研討會

「國際漢學數位人文科技學術研討會」會議期程共二日,議題含括數位人文的系統與技術,透過三個場次,向國內外學界發布臺灣大學數位人文研究中心近年來在數位人文國內外合作項目上的技術創新成果。本會議亦邀請到多個國內外合作機構的學者專家共同與會,透過線上交流,與所有與會者共同擘劃數位人文未來的發展藍圖,拓展國際合作能量、提升國際學術影響力以及深化全球性的數位人文基礎建設。

直播資訊

場次一:臺灣大學新建數位人文資源介紹         視訊 YouTube提問 Slido
場次二:DocuSky 數位人文學術研究平台新建開源工具分享  視訊 YouTube提問 Slido
場次三:國際漢學數位人文合作發展項目論壇       視訊 YouTube提問 Slido


相關注意事項
  • 除了 Youtube 直播觀看外,同步開放報名參與思科線上會議室。
  • 思科線上會議報名連結:https://www.surveycake.com/s/4KBDB
  • 如無法於報名網站完成報名,請將報名資訊(姓名、電子信箱、服務單位、目前職稱、透過何種管道獲得本次活動資訊、期望在研討會獲得什麼資訊)寄至 ntucoda@ntu.edu.tw 信箱。
  • 因思科會議室有人數限制,為保障其他報名者權益,請勿將會議室連結、會議號和密碼給予非報名者。若當天線上會議室人數已滿,請使用 Youtube 直播觀看。
  • 可至相簿查看活動照片

議程

Day01:2020/12/17(四)(UTC +8)

時間 議程內容
09:30-10:00 與會連線
10:00-12:30
 場次一:臺灣大學新建數位人文資源介紹
 主持人/陳光華教授(國立臺灣大學圖書館館長)
1 講題/歷代寶案脈絡分析系統
講者/張毓哲
歷代寶案脈絡分析系統由臺灣大學大數位人文中心與臺灣大學圖書館合作建置。歷代寶案為 1424 年至 1867 年琉球王國時代之外交文書,空間範圍從東北亞延伸至東南亞。系統內容以臺大版《歷代寶案》為主體,並以日本沖繩縣教育委員會出版之《歷代寶案 校訂本》及《歷代寶案 譯注本》為輔助。本系統之建置目的在於提供一個可供觀察與分析的數位環境,讓使用者能對歷代寶案的結構與內容、及其所反映的時空環境有更進一步的探索與了解。透過全文建置、重要詞彙擷取、成文日期正規化與標記,建置一個以研究者為導向,具有後分類、脈絡關係、可分析統計、可視覺化觀察的數位人文脈絡分析系統。
2 講題/淡新檔案客家研究脈絡分析系統
講者/胡其瑞博士
淡新檔案客家研究數位分析系統,由行政院客家委員會客家文化發展中心委託臺灣大學數位人文研究中心及臺灣大學圖書館合作建置。系統內容以《淡新檔案》為核心,由客家文化研究專家學者萃取客家元素增列客家事件分類,深化《淡新檔案》的研究內涵,期望提供符合客家研究需求的數位分析系統。本系統主要內容為國立臺灣大學圖書館所典藏之《淡新檔案》,是清乾隆 54 年(1789)至光緒 21 年(1895)淡水廳、臺北府與新竹縣的行政與司法檔案,涵蓋時空範疇正是清領時期臺灣北部客家族群的主要生活範圍透過數位人文系統的建置,將更能幫助使用者在系統中進行資源查找、議題探索,以及更多數位人文研究工具的分析與視覺化呈現。
3 講題/臺灣大學佛學數位圖書館
講者/丁培峰
臺大佛學數位圖書館,為全球最大的佛學研究主題資料庫,旨在提供全球各語系佛教研究文獻、經典、工具,以推廣並促成佛學研究教學之發展。本館由前臺大哲學系釋恆清教授於 1995 年肇創,收錄逾 41 萬篇書目、8 萬多篇全文檔案、17,716 卷數位佛典、10 萬名佛學著者、9,500 種佛教期刊,內容含括 45 種語言 15 種資料類型,提供中英日文版瀏覽介面,歷年使用人次超過 3,000 萬,深受學界與教界所倚重。本館自 2008 年起開始思惟新的發展,以檢索引擎為核心主軸,聯結並貫穿各項功能,以求創造出更高品質的服務。本文就佛學數位圖書館所尋求的轉變、遭遇的困難與突破,並輔以使用者分析呈現出發展成果與未來展望。
4 講題/運用空間資訊的古契書多模態檢索
講者/黃志揚
隨著 GIS 的發展,此技術已逐漸被放入數位人文的範疇中,但如何將其整合至原先數位典藏系統中,成了一項考驗。本報告將提出一個地理資訊檢索系統,涵蓋 THDL 《古契約文書》文獻集收錄的《臺灣總督府檔案抄錄契約文書》中,具有『堡庄資訊』的契書,不單單提供文字查詢,還提供空間資訊檢索,讓使用者在地圖上匡選範圍,尋找所需的契書。除此之外,還可以更換歷史圖層,例如:台灣堡圖以及日治時期之地圖,使用者得以融入空間情境進行檢索。透過文字混合空間查詢,所得古契書可以轉移至 THDL,對其進行後分類瀏覽。本系統成功整合空間檢索於 THDL 古契書,為 THDL 古契書提供另一種檢索方式,願學者可以運用這樣多模態的檢索,讓文字與 GIS 資訊緊密結合,對於古契書會有不同的發現與體驗。
12:30-14:20 換場中
14:20-17:20
  場次二:DocuSky數位人文學術研究平台新建開源工具分享
 主持人/劉昭麟教授(臺灣數位人文學會理事長)
1 講題/從 WikiSource 到 DocuSky:數位人文如何為文本加值?
講者/李旭恩
維基文庫收錄大量失去版權的文本,並開放全世界的維基使用者上傳與修改,使文本的錯誤能被快速修正,達到質與量兼具。但是,當研究者欲使用維基文庫的大量文本時,維基文庫的設計可能讓人卻步。維基文庫並沒有提供適當的工具,缺乏標記功能,也無法編輯詮釋資料,也無法對檢索結果進行再分類,因此不便後續利用。
DocuSky 是一款針對研究者的工具集合,不僅能建立屬於個人的文獻資料庫,例如使用者想整理一套關於明朝志怪小說的文獻集,就可以將《西遊記》、《封神演義》放入同一套資料庫內,以便整理;另外,使用者還可以將文本提及可能地點視覺化地呈現在中國地圖上,並與不同年代的中國地圖互相對照。
維基文庫雖然擁有巨量文本,但使用者無法直接將維基文庫的文本直接匯入 DocuSky 文獻資料庫,因此,我們開發了 Wiki2DocuXML 這個工具,它的開發最主要有兩個目的:第一是能大量下載維基文庫的文本,第二則是將抓下來的文本資料轉換為 DocuSky 能利用的格式。Wiki2DocuXML(以下簡稱 W2D)可以成為維基文庫與 DocuSky 間的接口,協助使用者下載維基文庫的文本並匯入 DocuSky 文獻資料庫,產生更多的後續應用。
2 講題/擷詞工具 2020:一個數位人文內容研究的文本擷詞工具
講者/杜協昌博士
人文研究有時會需要從研究素材的文本內容中,盡可能找出某些類型的詞彙。這場講演討論擷詞工具 2020,它的目的就是為了滿足數位人文研究的擷詞需求。我們先回顧「詞夾子方法」的原理,說明它在實務應用上的侷限,然後討論擷詞工具 2020 解決這些問題的方式。我們以《熱蘭遮城日誌》第三冊為文本,進行「村社名、人名、船名、日期字串、身份職稱、貨物名稱」等六種類型詞彙的擷詞實驗。我們將利用這項實驗的結果,討論擷詞工具 2020 的特性與優點。
3 講題/批次標記工具
講者/胡其瑞博士
批次標記工具是 DocuSky 數位人文學術研究平台所建置的文本標記工具,可以利用使用者所製作的詞彙表在一至多個電子文本中進行快速的批次標記。一直以來學界對於批次標記的精準度與錯誤率感到不安,特別是面對巨量文本時可能發生的誤標與漏標問題感到困擾。因此,我們設計了一套簡易上手且具備多重篩選機制的批次標記工具,讓電子文本的標記可以更符合研究者的需求,並快速達到使用者標記文本的目的。
4 講題/以 DocuXML 格式實現多文本間的對讀
講者/賴思頻
對讀,意指對照不同文本、進行對比式的閱讀。需要這種形式閱讀的例子很多,譬如比較同一本書的不同版本或不同語言的翻譯。中國古籍中常有不同的注釋,同時閱讀不同層次的注釋也是一種對讀。透過對讀,人文研究者可以清楚而快速的掌握不同文本間的差異,並對此差異做更深入的探討與分析。本文試圖開發一個對讀工具,利用資訊技術將不同而對應的文本並排在同個頁面,透過點選的方式快速檢視相對應段落,以期降低紙本對讀的繁瑣性。我們的工具利用 DocuSky 所開發的 DocuXML 標準,引進 Align-Tag 做為內文段落間的對讀錨點,使得文件除了透過詮釋資料的對應外,亦可透過段落ID的對應來進行對讀。目前已實現的應用實例,包括歷史文本(春秋三傳)、翻譯對照(唐詩原文與白話翻譯)與版本對照(聖經)。
5 講題/Firebase 介接 DocuSky:免費的線上圖庫
講者/陳冠霖
在過往推廣 DocuSky 中,往往會遇到使用者提出能否在文本中穿插圖片,而 DocuSky 現階段也的確擁有支援圖片的功能。但是卻沒有空間讓使用者上傳自己的照片,必須得讓使用者去第三方雲端存放檔案,再自行擷取檔案連結。然而如 imgur、google 雲端...etc,檔案的連結都是加密過的亂碼,假如想要使用一千張圖片,就必須手動生成連結一千次。
然而面向程式開發者及企業的 Firebase,其提供的雲儲存服務,允許使用者透過安全規則語法設定存取規則,藉此可以達到只靠檔案名稱以及使用者名稱,就足以生成此檔案的直接連結。
我們也另外開發了一些小工具,來讓使用者連結更方便的生成。藉由上述,便能達到使用者上傳完檔案後,開啟工具便能輕鬆生成大量的檔案連結,而不用花人力去手動剪貼連結。
6 講題/DocuSky 開放架構中的 DocuXml 與 DocuWidget
講者/洪一梅博士
DocuSky 是一個整合資源、工具及服務的數位人文學術研究平台,採取開放架構,所有資源、工具及服務的接合是建基在二個重要規範上:一為 DocuXML,是 DocuSky 線上資料庫與文獻集的標準文件格式,其內含完整的建庫訊息,除提供使用者上載即建庫外,更是與外部數位資源格式轉換的標準;二為 DocuWidgets,是 DocuSky 用以資料傳輸、資訊溝通及各式數位資源庫與數位工具介接的功能元件,用以存取平台運行的 API,主要為有效降低開發與接合的複雜性。DouSky 透過此二個重要規範,欲達成開放平台的目的。面對使用者,希望他們可以自由自主且自在的悠遊於平台上;面對數位資源、數位工具及數位服務的貢獻者,則是希望可以達到公眾參與,使 DocuSky 得以從開放平台走向公共平台的目標願景。


Day02:2020/12/18(五)(UTC +8)

時間 議程內容
14:00-17:30
  場次三:國際漢學數位人文合作發展項目論壇
 主持人/台灣大學項潔特聘教授(台灣大學數位人文研究中心主任)
1 機 構/台灣大學數位人文研究中心
參加者/項潔特聘教授 (主持人)
講者,展開發表詳細資訊
講者介紹/
項潔目前任職於國立台灣大學資訊工程學系,研究專長領域為自動推理、程式語言邏輯、人工智慧、數位圖書館與博物館。1993年成立數位典藏與自動推論實驗室,早期研究自動推論與數位典藏為主,現以數位人文研究為重心

主題/DocuSky 的現況與展望
DocuSky 是臺灣大學數位人文研究中心發展的個人化數位人文學術研究平臺。它為漢學家提供個人化的學術研究服務,例如蒐集與下載線上數位資源;整理與組織個人研究材料(賦予 metadata 及全文標記等);一鍵(從 excel 表或標記的全文)建置雲端資料庫;文本探勘、各式文本分析、視覺化與 GIS 工具等。在這個簡短的報告裏,我們將說明這一年來 DocuSky 新增的工具和服務,DocuSky 被運用的現況以及未來的願景與展望。

             杜協昌博士
             洪一梅博士
             胡其瑞博士
             曹德啟博士
2 機 構/政治大學資訊科學系
受邀者/劉昭麟特聘教授  講者,展開發表詳細資訊
講者介紹/
劉昭麟畢業於密西根大學擁有智慧型系統博士學位。目前服務於國立政治大學資訊科學系,擔任系主任、理學院副院長與臺灣數位人文學會理事長。對於數位人文領域有廣泛興趣,近年特別關注漢文文言文的文學與史學資料的內容分析,但也參與現代中英文各種文類的文本分析工作,近年對於基礎工作例如文言文的分句、斷詞和文言文本數位化比較投入。
個人網址:http://www3.nccu.edu.tw/~chaolin/

主題/漢文文言文史資料分析的一些基礎工作
在這一簡報中,將簡要回顧漢文文言文史資料的一些分析工作,進而介紹應用人工智慧機器學習技術輔助基礎工作包含分句、斷詞與文本數位化工作的近況。

3 機 構/法鼓文理學院
受邀者/洪振洲教授  講者,展開發表詳細資訊
講者介紹/
洪振洲在 2006 年於台灣科技大學資訊管理系取得博士學位,目前任教於法鼓文理學院佛教學系,為專任副教授,並兼任圖書資訊館館長一職。他的目前參與許多由法鼓法鼓文理學院執行的數位典藏計畫。他的研究興趣包含漢譯佛典作譯者分析、數位典藏專案建構、數位人文研究資源開發與數位文字處理議題。

主題/新一代佛典數位知識系統的規劃與發展
法鼓文理學院數位典藏組自創立以來,便以製作各種便利佛學研究所使用之數位資源與研究工具為目標,積極進行各式專案的製作。除製作各種佛學研究需要的數位文獻資料庫外,近年來也結合數位人文概念,進行「CBETA 數位研究平台」的建置,而完成了「CBETA 線上閱讀」、「CBETA 詞彙搜尋與分析」、「DEDU 對讀文獻編輯器」等三個協助研究者取得佛典內容與參考資料、彙總分析搜尋結果與編輯對讀資料的方便工具。
但現今已完成的工具與資料庫,還是以提供文獻的文字資訊為主,並未進一步處理隱藏在文獻背後的深層意義,使現有系統難以滿足佛學研究者的深度需求。因此在近期的嘗試當中,我們希望結合最新資訊技術,朝向製作一個能提供佛典知識的系統而努力。在我們近期的發展計畫中,我們主要以「持續提昇文本資料取用服務功能」、「佛學自然語言處理工具」、「製作佛學鏈結資料與知識圖譜」為主要目標,進行相關系統的規劃與建置。在本次報告中,將與大家說明我們的規劃、進度與初步成果。

             王昱鈞教授
4 機 構/中央研究院數位文化中心
受邀者/陳熙遠教授  講者,展開發表詳細資訊
講者介紹/
陳熙遠於 1999 年取得哈佛大學博士學位,現為臺灣中央研究院歷史語言研究所研究員,並兼任國立臺灣大學和國立台北大學的歷史學教授。主要研究領域為中國文化思想史,特別關注儒教中國的國家祀典與民間信仰。除了專業研究之外,亦擔任中央研究院數位文化中心召集人及中央研究院歷史語言研究所明清檔案館工作室(清朝內閣大庫)主任。

主題/人文研究的數位轉化 ─ 數位文化中心的近程規劃與遠程前景
2013 年跨領域、跨學科、跨單位的「數位文化中心」正式在中研院成立,主要使命在於協助人文學研究的數位轉向。人文學者面臨的主要挑戰不外有二:一是材料內容的擷取;二是分析方法的運用。本中心努力的目標,一方面既要將散布且積澱在不同歷史、各個文明角落裡的文本與圖像,進行結構化的匯集與整理;一方面提供迅捷的工具便於薈萃與條理,使研究者更能有效地處理巨量與多元的文字或圖像,從而開發過去受限的人文學者怯於提出或無法探索的研究議題。
首先,在「數位人文知識庫」的建置上,我們除持續與中研院人文各所合作,積累數位典藏的多元內容之外,更探索如何轉化數位典藏所積蓄的巨量資料,藉由與時俱進的語意網與人工智慧技術開發,讓巨量的資料庫不僅只是一座靜態的孤立倉庫,被動地供給研究者從中檢搜線索,而是更主動地針對研究者的設想與提問,提供動態鏈結的知識圖譜,並期待將能與全世界相通互補。
其次,在研究分析的應用工具上,近年來我們嘗試研發「文本分析研究平台」與「圖像分析研究平台」:(一)「文本分析研究平台」:目前開發的功能包括文本/語意標記、詞頻統計、共現詞分析、文本比對、自然語言處理、時空資料整合分析、社會網絡分析以及資料的視覺化。(二)「圖像分析研究平台」:主要採用 IIIF 國際圖像互通架構,進行大圖解析、微觀分析、圖像比對研究、圖像材料重聚、LOD 鏈結開放資料、語意標註、圖像物件識別、圖像檢索等功能。我們期望除了能支援人文學者進行個別的專題研究之外,更能透過研究平台的相參共用,形成學術社群,分享並積累研究成果。
最後,如何透過數位化的工具,介接或展示所蒐羅的藏品或研究的成果,讓嶄新的研究成果在美麗新「數」界(Brave New Digital World)裡分享與傳播也是我們念茲在茲的重要挑戰。「開放博物館 (Open Museum)」是我們嘗試跨出的第一步。「向芸芸眾生開放、因芸芸眾生的參與而更開放」是我們「開放博物館」的核心信念。換言之,策展不再是博物館的專利,人人都可以自由進行線上的策展。我們提供時間模組、地圖模組等數位工具的搭配,豐富數位展覽呈現樣態。我們期待透過「開放博物館」的設置,真正實踐「民有」「民治」「民享」的新三民主義:藏品為全民所共有、展館為全民所共管、成果為全民所共享,打造理想中人文化成的美麗新「數」界。
在這看似欣欣向榮,卻也可能危機四伏的美麗新「數」界裡,我們也許只能步步為營,審慎地期待利用數位工具的「易簡功夫」,來重新整合「支離事業」。儘管人文學者都不再可能「躲進小樓成一統」,但也許棲身在數位架構的時空裡,仍能在「商量舊學」與「培養新知」之間取得互動的平衡,從而悠然領略每一季轉化介接的春夏秋冬。

             王祥安博士
             林玟君博士
5 機 構/哈佛大學費正清中國研究中心
受邀者/包弼德教授
             鄧國亮博士  講者,展開發表詳細資訊
講者介紹/
鄧國亮,香港中文大學學士、碩士,美國賓州州立大學博士,主修歷史、亞洲研究。現爲哈佛大學費正清中國研究中心數碼中國研究員。

主題/哈佛大學費正清中國研究中心「數碼中國」
哈佛大學費正清中國研究中心的「數碼中國」計劃,旨在於中國研究領域推廣數位研究方法與工具,亦期許爲同寅帶來更多方便的數位服務。本報告將簡介「數碼中國」計劃的現況和目標。

             王宏甦項目經理  講者,展開發表詳細資訊
講者介紹/
王宏甦是中國歷代人物傳記資料庫的資深項目經理。主要負責各子項目的統籌管理、數據庫維護、人文學者與技術學者之間的溝通、促進基於數位人物的研究等。

主題/大眾化:服務於眾,參與由眾
中國歷代人物傳記資料庫項目 2020 年的發展以 “大眾化” 為主要目標之一。這次演講將對項目在 2020 的工作,包括全新的在線錄入與查詢系統,全新的 API,開源社區,關聯數據平台,以及兩個眾包子項目,進行介紹。

6 機 構/南洋理工大學
受邀者/徐源教授  講者,展開發表詳細資訊
講者介紹/
徐源博士是醫學人文學科的研究者,目前服務於新加坡南洋理工大學擔任助理教授。徐源博士關注於中國中古和近代時期的中醫和宗教。 他將文本研究、訓詁學、和數位人文學工具相結合,以比較不同情況下的多種醫學。

主題/DocuSky 與多元(與多語)的藥物研究
為了比較不同認識論下的醫學概念,本計畫著重於建置多元文類與具備搜尋多語藥物功能的數據庫為目標。目前已經上線的《DaoBudMed6D》資料庫內中已包括道教、佛教和醫學等著作,以六朝時期—一個宗教在醫學中扮演著活躍角色的時代 — 為研究終點。
最近我們剛發布了最新版的本草標記版本:《本草經集注》。在這個版本中,我們將文本具有的三個不同歷史層次進行了切分,可作為六朝時期藥理知識的背景,也顯示出該文本的歷代演變。並且我們也透過也使用這個資料庫來生成能夠與 Tableau 交互使用的地圖,以顯示當時藥物地理分佈知識的歷代發展。從此可已看出許多以往未曾注意到的地區自然特徵是如何影響於早期藥物商場的情形。
目前正在進行標記版本之葛洪的《肘後備急方》,這是該時代最主要的藥方手冊。之後,我們也正在準備出版《正統道藏》和《大藏經》的 DocuSky 版本,讓學者們做大型規模的分析。
目前在開發解決方案,以更好地識別技術建置藥名同義詞的權威數據集。這些可用於標記本草,並將它們鏈接到當代數據庫,以顯示其生物活性以及本地和引進的地理傳播。該解決方案旨在解決中文藥物的別名,並擴展到其他語言的藥名,輔助多語言的藥學比較研究。我們與皇宮植物學園的 Kew Gardens 的醫藥植物名服務 (MPNS) 合作, 在新加坡國家文物局的支持下,將要開發基本的基礎架構,未來可以使用多種語言進行加載。首先將以中文、馬來語和 Abui(印尼 Alor 島上的少數民族)等語種的植物學名進行處裡。

7 機 構/馬克斯普朗克科學史研究所
受邀者/薛鳳教授
             陳詩沛博士  講者,展開發表詳細資訊
講者介紹/
陳詩沛為國立臺灣大學資訊工程博士,現任德國馬克斯普朗克科學史研究所(馬普所)研究員,致力於發展適用於歷史研究的數位人文方法論及工具。她於馬普所主持的地方志研究群中發展出 LoGaRT 地方志研究工具集,乃透過大量數位化材料,以統計、視覺化方法重新檢視地方志所代表的地方知識本質。她曾任哈佛大學量化社會科學研究所(Institute for Quantitative Social Sciences)博士後研究員,並擔任中國歷代傳記人物資料庫(CBDB)的計畫經理,曾帶領該計畫運用文字探勘技術從數位史料中擷取大批人物傳記數據。

主題/RISE and SHINE:促進數位漢學的技術基礎設施
過去幾十年間已經有豐富的文史材料被數位化,同時在數位人文大傘下也有許多優質的數位人文研究工具被發展出來,然而,當研究者想應用數位人文時,通常得自己找辦法將文本帶到工具端、自己學習如何使用工具,當中可能面臨種種法律或技術上的困難。RISE & SHINE的誕生便是為了補足這個環節,我們推出一套簡單的機器溝通機制 APIs 幫助文本能在資料庫及數位人文工具之間容易並安全的傳遞。這個場次中我將報告 RISE & SHINE 最新的技術進展,並希望藉此機器與其他數位漢學團隊共同討論 RISE & SHINE 的未來發展方向。

             Pascal Belouin 博士
             葉桂林博士
             王修恩博士
             林農堯博士
8 機 構/柏林國家圖書館
受邀者/何浩洋博士  講者,展開發表詳細資訊
講者介紹/
何浩洋博⼠,2013 年畢業於臺灣⼤學資訊⼯程研究所。2013-2016 年分別任職於倫敦國王學院(King’s College London)及荷蘭萊頓⼤學區域研究中⼼(Institute for Area Studies),為歐盟研究計畫 “Communication and Empire: Chinese Empires in Comparative Perspective” 專任之博⼠後研究員,期間為 “Automating Data Extraction from Chinese Texts” 項⽬開發了中⽂⽂本標記平台 MARKUS,並贏得 2016 年全球數位⼈⽂⼤獎(Digital Humanities Awards)最佳數位⼈⽂⼯具(組)的第三名。⾃ 2016 年起在德國柏林國家圖書館任數位⼈⽂學科館員。

主題/CrossAsia Lab 與圖書館的數位人文角色
CrossAsia Lab 是柏林國家圖書館基於亞洲電⼦資源成立的數位⼈⽂實驗室。柏林國圖近年嘗試將其購買的電⼦⽂本整合於 ⼀ Integrated Text Repository(整合⽂本存儲庫),作為提供不同類型的實驗性數位⼈⽂服務的基礎建設,其⽬的是探索圖書館在數位⼈⽂領域中如何提供⽂史研究者所需的數位⼈⽂服務。⽬前 CrossAsia Lab 已提供 CrossAsia Full text Search 能跨資料庫進⾏全⽂檢索 CrossAsia ITR Explorer 發現⼯具運⽤視覺化⼯具來分析、比較以及進⼀步處理檢索結果;和 CrossAsia N-gram 資料集,其分析部分已整合電⼦⽂本之 NGram 詞彙表,供外界下載作為機器學習的參考。

9 機 構/萊頓大學
受邀者/魏希德教授  講者,展開發表詳細資訊
講者介紹/
魏希德教授為荷蘭萊頓大學中國歷史系教授,其餘資訊請詳閱英文版介紹

主題/回顧與前瞻: MARKUS, COMPARATIVUS, 與 PARALLELS
在本次論壇的主旨下,我將報告「MARKUS文本分析平台」(MARKUS text analysis platform)與文本比較服務的幾項新的成果與未來的發展方向。

10 機 構/杜倫大學
受邀者/德龍教授  講者,展開發表詳細資訊
講者介紹/
Donald Sturgeon(德龍),英國杜倫大學資訊工程學系助理教授。東吳大學碩士、香港大學博士,曾任哈佛大學費正清中國研究中心博士後研究員。研究興趣包括:自然語言處理、文本再利用分析、數位人文等。
從 2005 年起,他創建和維護了「中國哲學書電子化計劃」,一個收錄戰國時期至清代末年文獻資料的數位圖書館。

主題/中國歷史數據眾包
自從 2005 年 ctext.org 公開於網路到現在,已有廣大讀者接觸到數位文本,也更好地發揮了數位文本的優勢。眾包(crowdsourcing)和 API(應用程式介面)的有效利用,已表明了基礎設施的重要性:這些基礎設施能讓用戶跨越地理位置和社群,致力於共同目標。
本場介紹正在進行中的工作,此工作試圖把眾包和 API 應用到文本語意內容和歷史層面。其中有兩項密切相關的工作需要平行進行:(一)創立和維護原典中的命名實體標記;(二)創立和維護一個知識圖譜,記載有關這些實體的相關知識及其原典出處。所得數據由API分享,而命名實體紀錄各種專業數據庫的相關標識符。由此,不但能為 ctext.org 的一般用戶提供脈絡化的閱讀環境,同時可以在數位人文研究過程中減少重複標記的工作。

11 綜合討論

聯絡資訊

主辦單位:臺灣大學數位人文研究中心 ( websitefacebook )、臺灣大學資訊工程學系
合辦單位:臺灣大學人文社會高等研究院臺灣數位人文學會
補助單位:科技部資助
Email:ntucoda@ntu.edu.tw