本系統為數位人文工具平台(DocuSky)之輔助工具,能夠輸入文本並進行分析。
目前系統提供的分析工具以寫作風格分析(Writing Stylish Analysis)為主,目前有四種分析方式:
Rank-Frequency Distance藉由「字頻在文本間的排名差距」和「字頻」計算兩文本間的寫作風格差異程度。
使用者可以選定數份文件集進行分析,並計算任兩單位之間的差距值。
參考論文:Yang AC, Peng CK, Yien HW, Goldberger AL. Information categorization approach to literary authorship disputes.(2003) [pdf link]
使用者可以選定數份文件集進行分析,計算各文件集中文件字頻或字比率的平均值,並對任兩份文件集進行兩樣本T檢定(Two Sample T-Test),結果會表列有顯著差異的字數。本分析方式假定任兩單位為變異數一致的兩獨立樣本。
參考論文:Hsieh-Chang Tu, Using a Text Mining Approach to Study the Authorship Controversy on the Last 40 Chapters of The Dream of the Red Chamber (2012) [pdf link]
計算兩文本的N-Gram章節出現率,並經由採礦公式計算後進行排序。章節出現率的差異越大會得到越前面的排序。
參考論文:Hsieh-Chang Tu, Using a Text Mining Approach to Study the Authorship Controversy on the Last 40 Chapters of The Dream of the Red Chamber (2012) [pdf link]
找出符合條件的前後綴詞,並提供依全文詞頻(term-frequency)的排序與文件頻率(document-frequency)等資訊。
可點選各分析方式的連結以得知該分析方法的詳細資訊。
(關於分析方法的概要,請參考上面的連結。)
請點選右上角的「分析」進行文本分析,
或點選「文本」按鈕繼續加入文本。
請點選「文本」按鈕加入需要分析的文本。
|
|
|
建立新文本請從下列三種方法中擇一加入文本:
|
已建立文本尚未建立任何文本。 |
依照指定的單元數自動進行分切。
不能完全等分時,選擇此項會讓剩餘章節與鄰近的單元合併為一單元。
自行指定單元數進行分切。