BatchTagging Tool 批次標記工具(亦稱為 ContentTagging 內容標記工具,簡稱 CT):
規格簡述
Excel sheets 輸入格式的簡單規格說明:
- 第一列 (row) 指定欄位的用途,至少必須有 tagName, tagVal 兩個欄位(有分大小寫,因此不能用 tagname 和 tagval)。
第二列以下的資料列,則指定要將文本內容的詞彙 tagVal 用標籤 tagName 標記起來。
- 可透過第一列指定輸出的標籤需內含特殊屬性 Term 或 RefId。
也就是說,可透過 @Term 或 attribute:Term(兩者作用相同)來指定標籤下的 Term 屬性值,
透過 @RefId 或 attribute:RefId(兩者作用相同)指定標籤下的 RefId 屬性值。
@RefId 的值通常是 <auth>_<id> 的形式,其中 <auth> 是某個開放權威檔的簡稱,
<id> 是權威檔中的唯一辨識碼。
例如,cbdb_1762 指向 CBDB 中「王安石」的人物資訊。
目前 DocuSky 對 @RefId 的支援相當有限。
目前僅在人名(PersonName 標籤)上支援 cbdb, dila 開放權威檔;
在地名(LocName 標籤)上支援 tgaz, dila, twgis 開放權威檔。
註:在 PersonName 或 LocName 標籤下,@RefId 也可以填寫一份完整(以 http:// 或 https: 開頭)的 URL。
- tagName 欄的 cell 值必須符合 DocuXml 標籤的規範(只允許英數字、底線、英文句點和減號,其他字元將被捨棄)。
除了 DocuXml 預先定義的 PersonName, LocName, SpecificTerm, Date 標籤,其他的標籤名稱都屬自訂標籤。自訂的標籤需以
"Udef_" 作為前綴,例如 Udef_DrugName。在 tagName 欄下的自訂標籤名稱,若沒有加上 "Udef_" 前綴,
本工具會自動將它補上(也就是說,在 tagName 欄下的儲存格內,填寫 DrugName 和 Udef_DrugName 會有相同的效果)。
- 可以加上欄位 filter:<metadata>,來指定文本在進行詞彙比對時,這份文本的 <metadata> 必須符合哪些條件。
例如,若加上一欄,其欄位名稱 filter:filename,而值為 f001|f011~f050|f099,則只有檔名為 f001、f011 至 f050、以及
f099 的文本會通過這項比對(通過的才會進行標記)。
- 若希望為出現特定詞彙的文本特別加上一些標記,可在 Excel sheet 加入一欄,其第一列的欄位名稱為 extraMetaTags。
若某 row 的 tagVal 為 t,extraMetaTags 為 A:a;B:b,則工具會在出現詞彙 t 的文本上,
新增標籤 MetaTags/Udef_A(值 a)以及 MetaTags/Udef_B(值 b)。
- 以下為一份簡單的表格範例,本工具會將文本內容的
- 「滬尾」標記為「<LocName Term="淡水">滬尾</LocName>」
- 「淡水」標記為「<LocName Term="淡水">淡水</LocName>」
- 「胡麻」標記為「<Udef_DrugName Term="芝麻">胡麻</Udef_DrugName>」
- 「芝麻」標記為「<Udef_DrugName>芝麻</Udef_DrugName>」
- 「王安石」標記為「<PersonName RefId="cbdb_1762">王安石</PersonName>」
此外,也會為出現「滬尾」的文本加上值為「早期名稱」的 metatags/Udef_NameStage;
出現「淡水」的文本加上值為「現今名稱」的 metatags/Udef_NameStage;
出現「胡麻」的文本加上值為「Common」的 metatags/Udef_Usage;
出現「芝麻」的文本加上值為「Common」的 metatags/Udef_Usage 以及值為「現今名稱」的 metatags/Udef_NameStage。
tagName | tagVal | @Term | @RefId | extraMetaTags |
LocName | 滬尾 | 淡水 | | NameStage:早期名稱 |
LocName | 淡水 | 淡水 | | NameStage:現今名稱 |
DrugName | 胡麻 | 芝麻 | | Usage:Common |
DrugName | 芝麻 | | | Usage:Common;NameStage:現今名稱 |
PersonName | 王安石 | | cbdb_1762 | |