詞彙統計工具使用指南

歡迎使用詞彙統計工具!

本系統讓使用者能在網站中載入文本與詞彙表,並進行相關的統計分析。

使用流程概述

  1. 載入文本
  2. 載入分類詞彙表
  3. 分析並輸出結果

載入文本

「文件」區塊提供兩種方式讓使用者載入欲分析之文件,並觀看目前載入的文件列表:

(1)從本機端檔案建立文件集

點選「從本機上傳檔案」中的「瀏覽 / Choose Files」按鍵,會開啟本機端檔案的選擇畫面。
幫文件集命名後,按下「新增」鍵即可新增分析文件集。
若一次選擇多個檔案,則會全部整合進同一個文件集中。

(2)從DocuSky加入文件集

在「文本設定」對話框中點選「顯示Docusky列表」按鍵,即會顯示DocuSky的登入畫面。
登入後會顯示個人帳戶中的文件集,點選指定文件集的「載入」按鈕即可從DocuSky下載文本並加入現有文件集列表。

(3)文件集列表

「文件」區塊的下方會顯示以載入的文件集列表(上圖紅框處)。
欲刪除建立的文件集,請點選該文件集右方的「X」刪除按鈕(上圖綠框處)。

載入分類詞彙集

「詞彙」區塊讓使用者能從本機端載入詞彙集,並觀看目前載入的文件列表:

(1)詞彙集的格式

在作為詞彙集的檔案當中,請用分行分隔每個詞彙。(請參考下面的範例)
請以UTF-8編碼格式的CSV檔(.csv)或純文字檔(.txt)儲存。

成語.csv
一箭雙鵰
一葉知秋
一舉兩得
一諾千金
一鼓作氣
一塵不染
...

(2)從本機端檔案建立分類詞彙表

點選「從本機上傳檔案」中的「瀏覽 / Choose Files」按鍵,會開啟本機端檔案的選擇畫面。
選擇詞彙表案後,按下「新增」鍵即可新增詞彙表。
您可以一次選擇多個檔案建立多個詞彙表。每個詞彙表會以檔案的檔名命名。

(3)從DocuSky加入詞彙表

先點選「從DocuSKy下載CVS檔」中的「檢視DocuSky檔案」登入並取得目前DocuSky的檔案資料。再點選「檢視DocuSky上的詞彙庫」就會顯示目前儲存在DocuSky的詞彙庫列表。
關於如何建立詞彙庫,請參考詞彙庫的上傳網站

顯示詞彙庫列表後,可以點選列表中項目右方的「新增」按鈕將詞彙庫中的所有詞彙表新增到詞彙表列表中。

(4)分類詞彙表列表

「文件」區塊的下方會顯示建立的分類詞彙列表(上圖紅框處)。
欲刪除建立的分類詞彙,請點選該分類詞彙右方的「X」刪除按鈕(上圖綠框處)。

進行分析

「分析」區塊在使用者載入文件集與建立分類詞彙後,就會出現文件集列表讓使用者選擇要分析的文件集(可多選)。
選擇文件集後,按下「開始分析」執行分析程式。

分析結束後下方會顯示結束訊息,並且提供兩種CVS檔儲存格式供使用者輸出儲存。

輸出格式有以下兩種:

(1)各分類詞彙的詞彙統計數值

Result_依詞彙分類.csv
"category","word", "tf", "df"
"成語","一石二鳥","145","120"
"成語","一舉兩得","132","91"
"地名","台北","162","114"
"地名","台中","158","102"
...

(2)個別檔案中出現的分類詞彙統計

Result_依檔案分類.csv
"category","file","title","source","order","termscount","totaloccurence","termlist","detail"
"成語","news_001_A00001.txt","當日新聞摘要_0703","天天新聞網","1","3","10","一舉兩得,一石二鳥,一椿美事","一舉兩得(5),一石二鳥(3),一椿美事(2)"
"成語","news_001_A00002.txt","當日新聞摘要_0704","天天新聞網","2","2","4","勤學不輟,賓至如歸","勤學不輟(2),賓至如歸(2)"
...
...
"地名","news_001_A00001.txt","當日新聞摘要_0703","天天新聞網","1","3","15","台北,台中,台東","台北(6),台中(5),台東(4)"
"地名","news_001_A00002.txt","當日新聞摘要_0704","天天新聞網","2","5","18","台北,台南,台中,新竹,屏東","台北(6),台南(4),台中(4),新竹(3),屏東(1)"
...
...