漢語詞典的正文本身就是壹個聚簇索引。比如我們要查“an”這個字,自然會翻開字典的前幾頁,因為“An”的拼音是“An”,按拼音排序漢字的字典是以英文字母“A”開頭,以“Z”結尾,所以“An”這個字自然排在字典的最前面。如果妳找遍了所有以“A”開頭的部分都找不到這個單詞,說明這個單詞不在妳的字典裏。同樣,如果妳查“張”這個字,妳也會翻到妳字典的最後壹部分,因為“張”的拼音是“張”。換句話說,字典的主體本身就是壹個目錄,妳不需要去查其他目錄來找到妳需要找的東西。文本內容本身就是壹種按照壹定規則排列的目錄,稱為“聚簇索引”。
如果妳知道壹個單詞,妳可以很快地從自動查詢。但是妳可能會遇到壹個妳不認識的單詞,妳不知道它的發音。這時候妳就找不到妳剛才要查的字了,妳需要根據偏旁查找妳要的字,然後直接翻到壹頁,根據字後的頁碼找到妳要的字。但是,妳結合部首目錄和字典找到的單詞排序,並不是真正的文本排序方法。比如妳查“張”這個字,我們看到部首查完之後的字典裏“張”這個字的頁碼是672,“池”這個字在字典裏“張”這個字的上面,但是頁碼是63,在它的下面。顯然,這些字並不是真的分別在“張”字的上面和下面。現在妳看到的連續詞“遲、張、弩”其實就是它們在非聚集索引中的排序,是字典體中的詞在非聚集索引中的映射。這樣我們就可以找到妳需要的單詞,但是需要兩個過程,先在目錄中找到結果,然後翻到妳需要的頁碼。
我們把這種目錄純為目錄,文本純為文本的排序方式稱為“非聚集索引”。