字查詢生成的索引大小的質量和準確性。在中文分詞的發展,及早並經常使用的方法是壹個二進制字的詞匯,這種方法的基本原理是開展句子包含中國二元,沒有壹個字的意思,只是壹個字的二進制索引。因此,該方法的分離的較大數目的話,在壹個巨大的索引數,該查詢將是無用的檢索數據時,好處是簡單的算法,將不會錯過檢索到的數據。後來發展的最大匹配的分割方法,其中分為子字的最大正向和反向的最大字。的原理和字典,生成公***字的字典,所分析句子的最大匹配字典中的字詞的過程,因此,分割成有意義的詞的句子鏈。正向最大匹配分詞官員容易出錯的部分決議字,如“珠寶和服裝,”將要“和服”字分離。達夢數據庫是用來改善逆向最大的分割方法,該方法是更積極的詞的準確性提高。是最復雜的統計方法分割方法。使用隱馬爾可夫鏈,這是壹個字後,取決於前壹個字的概率發生的概率的方法,最後壹個單詞出現所有的最大字的基礎上的統計概率。這種新的名詞和地名的識別方法是遠高於最大匹配方法,文本的準確性隨著樣品的數量增加,分別。 /> />兩個元的分割方法和統計方法不依賴於詞典中,最大匹配的圖像分割方法是依賴於詞典,字典的內容所決定的結構的詞語是好還是壞。
全文索引被稱為倒排索引,倒排索引,因為每個單詞的索引條目,根據索引項查找包含單詞文本。因此,索引的話,唯壹的唱片公司是文本到很多的關系。的索引詞排序,根據包含分類文本的字的字定位。
步驟1)閱讀整個句子的變量str,請轉到步驟2
步驟2)句末可變字讀壹個字,去第3步
步驟3)查找單詞在字典中保存的話。如果有保存的字,則轉到步驟4,否則轉到步驟5)
步驟4)如果它是最大的字典中的字,或超過的最大數目字(確定為新詞),除去尾部條款的話,返回到步驟2
步驟5)讀字壹個字前,形式新詞,請轉至步驟3)
>詞庫和單詞記憶的數據結構庫字匹配算法
不停地使用這個詞的內存層次結構
承擔以下字典中的字:中國全國人民民主***和國
在存儲器方式如下,其中每個方塊代表壹個字符,箭頭指向的第壹個字被安排在層中的