分詞的質量關系到查詢的準確率和生成索引的大小。在中文分詞的發展過程中,早期經常使用二元分詞。這種方法的基本原理是將含有漢語的句子分成二進制詞,不考慮詞義,只索引二進制詞。所以這種方法分隔的單詞量大,導致索引數量巨大,查詢中會檢索到無用的數據。優點是算法簡單,不會遺漏檢索到的數據。然後發展了最大匹配分詞方法,分為正向最大分詞和反向最大分詞。其原理類似於查字典,對常用詞生成字典,在分析句子的過程中最大限度地匹配字典中的詞,從而將句子拆分成有意義的詞鏈。最大匹配法中的正向分詞法在區分形式詞時容易出錯。比如“珠寶與服裝”會把“和服”單獨作為壹個詞。大夢數據庫采用改進的逆向最大分詞方法,相對於正向提高了正確率。最復雜的是通過統計手段進行分詞的方法。該方法采用隱馬爾可夫鏈,即最後壹個詞的概率依賴於前壹個詞的概率,最後統計所有詞的最大概率作為分詞的依據。該方法對新名詞和地名的識別率遠高於最大匹配法,且準確率隨著樣本文本數量的增加而增加。
二進制分詞方法和統計方法獨立於詞典,而最大匹配分詞方法依賴於詞典,詞典的內容決定了分詞結構的質量。
全文檢索的索引稱為倒排索引,之所以稱為倒排索引,是因為將每個詞作為壹個索引項,根據索引項搜索包含該詞的文本。因此,索引都是單詞,唯壹記錄的文本的標簽具有壹對多的關系。對索引詞進行排序,並根據排序後的詞定位包含這些詞的文本。
步驟1)