設定文本、種子詞彙與詞夾參數
可
點我
從 DocuSky 取得文本,
點我
讀入本地端 DocuXml 檔,
點我
讀入本地端 UTF-8 文字檔, 或是直接將文本剪貼於以下文字框:
文本內容
可用====(連續四個等號
)
將文本切分為多個章節
種子詞彙
(可輸入詞彙、不含井號分號 (#;) 的正規表達式或
巨集
,多式之間以分號 ; 隔開)
巨集檢測
異體字設定
是否清除系統中所有詞夾與詞彙
(若欲分批匯入多份 #UDEF_XX# 自訂詞彙檔,請選「否」)
:
是
否
確定(載入文本 → 計算詞夾)
支援的巨集縮寫 (macro) 簡要說明
檢測候選詞夾,並以選用的種子夾取詞彙
C
候選詞夾
改依字母排序
+
加入的種子詞夾
-
丟棄的無效詞夾
新增詞夾(可僅輸入左或右夾):
左夾:
詞夾寬度(最長詞彙):
右夾:
新增詞彙:
確定(計算詞彙)
確定(跳過不計算詞彙)
一致化標點符號:⊥
挑選目標詞彙,並以選用詞彙作為種子,計算新的候選夾
C
候選詞彙
全選用
改依字母排序
+
選用詞彙
-
廢棄詞彙
新增詞彙(詞彙間以 ; 區隔):
巨集
確定(計算詞夾)
確定(跳過不計算詞夾)
詞夾參數設定 ‧ 進度存取 ‧ 詞彙詞夾輸出
一般參數設定
■ 從 DocuSky 最多擷取文件篇數(上限 10000):
■ 頁面顯示文件數:
詞夾參數設定
■ 詞夾模具的長度設定: 左夾
詞彙
-
右夾
■ 詞夾模具的閥值設定: 單一詞夾至少出現
個候選詞彙
■ 標點一致化(將中文頓號之外的標點,統一置換成特殊符號 「⊥」):
是
否
確定
進度存取
■ 儲存:將進度儲存於檔案(不含文本內容)
■ 載入:從先前儲存的進度檔還原狀態
確定載入
詞彙輸出
輸出選項:
僅包含詞彙
詞彙,檔名,巨集,註解
檔名:
輸出詞彙
「
」上下文檢視 (數量:
?
)
本章節的詞彙與出現頻率
查找詞彙的出現統計
勾選欲進行檢測的巨集
異體字選擇(實驗性功能)
註解:
設定
加入詞彙列表:
YES
NO
複製
取消
擷詞工具 2020 版 (v0.22)
使用說明
English
輸入文本與種子
詞夾 → 詞彙
詞彙 → 詞夾
M
,
,
查找詞彙:
查詢
[
#
:
#
]
文本擷詞工具 2020:檢測巨集在文本可比對到的詞彙
Back to Main