歡迎使用文本風格分析工具!

本系統為數位人文工具平台(DocuSky)之輔助工具,能夠輸入文本並進行分析。
目前系統提供的分析工具以寫作風格分析(Writing Stylish Analysis)為主,目前有四種分析方式:

(1)Yang's Rank-Frequency Distance

Rank-Frequency Distance藉由「字頻在文本間的排名差距」和「字頻」計算兩文本間的寫作風格差異程度。
使用者可以選定數份文件集進行分析,並計算任兩單位之間的差距值。

參考論文:Yang AC, Peng CK, Yien HW, Goldberger AL. Information categorization approach to literary authorship disputes.(2003) [pdf link]

(2)Tu's Term Frequency t-Test

使用者可以選定數份文件集進行分析,計算各文件集中文件字頻或字比率的平均值,並對任兩份文件集進行兩樣本T檢定(Two Sample T-Test),結果會表列有顯著差異的字數。本分析方式假定任兩單位為變異數一致的兩獨立樣本。

參考論文:Hsieh-Chang Tu, Using a Text Mining Approach to Study the Authorship Controversy on the Last 40 Chapters of The Dream of the Red Chamber (2012) [pdf link]

(3)Tu's Mining Function

計算兩文本的N-Gram章節出現率,並經由採礦公式計算後進行排序。章節出現率的差異越大會得到越前面的排序。

參考論文:Hsieh-Chang Tu, Using a Text Mining Approach to Study the Authorship Controversy on the Last 40 Chapters of The Dream of the Red Chamber (2012) [pdf link]

(4)前後綴詞分析

找出符合條件的前後綴詞,並提供依全文詞頻(term-frequency)的排序與文件頻率(document-frequency)等資訊。

可點選各分析方式的連結以得知該分析方法的詳細資訊。

STEP1: 加入新文本

範例文本:紅樓夢

STEP2: 進行分析

(關於分析方法的概要,請參考上面的連結。)

目前有可供分析的文本!

請點選右上角的「分析」進行文本分析,
或點選「文本」按鈕繼續加入文本。

沒有可供分析的文本

請點選「文本」按鈕加入需要分析的文本。

建立新文本

請從下列三種方法中擇一加入文本:

1:

從Docusky加入文件:

2:

從本機上傳檔案:

限純文字檔,建議以UTF-8編碼儲存。

將單份文件或章節以個別檔案儲存,系統會自動依檔案名稱排序。

標題:
選擇檔案:
3:

於下方區塊貼上文本:

標題:
輸入內文:

已建立文本

尚未建立任何文本。

單字在各章節中的出現次數

單字在各章節中的出現次數,占該章節總字數的比率

Author: Hsieh Po-Yu, Kenny
Last update: May 30, 2016
選擇的文件集:
總章節數:

自動分切

依照指定的單元數自動進行分切。

單元數:

不能完全等分時將多餘章節置於: 最後面的單元 最前面的單元
使多餘章節與鄰近單元合併

不能完全等分時,選擇此項會讓剩餘章節與鄰近的單元合併為一單元。

手動分切

自行指定單元數進行分切。

新文件集名稱:

起始章節:

結束章節:

預定分切列表

請稍候片刻。