共用方式為


Surface Form Normalization

雖然單字和語言規則明顯不同,但有一些考慮,例如數位、日期和時間,在所有斷詞工具中一致地處理。 本主題記載可能會影響斷詞工具實作的正規化考慮。

本主題的組織方式如下:

斷字

複合字或名稱的元件之間會使用連字號 () 。 當文字在文字行尾除時,字組的音節之間也會使用它們。 在英文中,單字會與連字號聯結,以指出內容中的特殊關聯性,但這些字通常不會在其他內容中連字號;例如,「逐步執行」。在索引建立期間,斷詞工具應該將連字號視為單字分隔符號。 例如,「data-base」 會儲存為 「data」 加上 「base」。在查詢時間,連字號片語應該取代為兩個替代專案:雙字變體和 true 複合。 例如,「data-base」 會取代為 「data」 加上 「base」 和 「database」。索引和查詢時間之間的差異會增加連字號字組的標記法組合,並讓單字更容易在查詢中比對。

下表顯示如何在英文中將連字號視為單字分隔符號,增加索引中包含的每個字詞相符的查詢字詞數目。

索引中包含的詞彙 查詢時間比對
資料基底 資料基底、資料基底
資料基底 資料基底、資料基底
資料庫 資料基底,資料庫

 

擁有者

擁有者是表示擁有權的名詞變化。 英文擁有者是藉由將單引號 () 或單引號和 (的) 附加至單字來表示。 例如,若要表示擁有權,「Mary」 這個字會表示為 「Mary's」。斷詞工具會在查詢時產生單引號和單引號表單。 「Mary」 的查詢應該符合 「Mary」 和 「Mary's」。

變音符號

讀音符號是新增至字母或音素的標記,以指出發音的特殊注音值。 讀音符號可以區分以圖形方式完全相同的字組;例如,英文的 「resume」 和 「resumé」。 不過,將讀音符號儲存至索引會增加索引中唯一字鍵的數目,這會降低查詢效能。 如果只以語言使用讀音符號,該語言的斷詞工具應該在索引建立和查詢期間移除它們。 例如,英文斷詞工具在處理「resumé」 時會產生「繼續」,只對查詢結果的相關性造成最小影響。

Clitics

clitic 是一個無法自行存在的未受限制字組,並附加至壓力字組以形成單一單位。 Clitic 無法輕易地分類為語音、語法或型態。 Clitics 有兩種類型: procliticsenclitics。 Proclitics 會將自己附加至單字的開頭。 Enclitics 會將自己附加至單字的結尾。

以西班牙文等語言剖析時,更難剖析 Clitics。 視時態而定,西班牙文動詞可能會產生許多表面形式。 您必須在建立索引期間移除 clitic,以及在查詢時透過字幹分析來產生介面表單之間的考慮。 在模棱兩可的情況下移除 clitic 組合的類型可能會導致無法預期的結果。 為單字產生大量的表面形式會增加全文檢索索引的大小,而且可能會降低查詢效能。 建議字幹分析器只產生少量表面形式。