當前位置:成語大全網 - 英語詞典 - 影片中澆註時間的指標是什麽?

影片中澆註時間的指標是什麽?

倒排索引表中的每個條目都包括屬性值和具有屬性值的每個記錄的地址。因為屬性值不是由記錄決定的,而是由屬性值決定記錄的位置,所以稱為倒排索引。帶有倒排索引的文件稱為倒排索引文件,簡稱倒排文件。構建全文索引有兩個非常重要的事項,壹是如何對文本進行分段,二是如何構建索引的數據結構。分詞的方法基本上是二元分詞、最大匹配和統計方法。索引的數據結構基本采用倒排索引結構。

分詞的質量關系到查詢的準確率和生成索引的大小。在中文分詞的發展過程中,早期經常使用二元分詞。這種方法的基本原理是將含有漢語的句子分成二進制詞,不考慮詞義,只索引二進制詞。所以這種方法分隔的單詞量大,導致索引數量巨大,查詢中會檢索到無用的數據。優點是算法簡單,不會遺漏檢索到的數據。然後發展了最大匹配分詞方法,分為正向最大分詞和反向最大分詞。其原理類似於查字典,對常用詞生成字典,在分析句子的過程中最大限度地匹配字典中的詞,從而將句子拆分成有意義的詞鏈。最大匹配法中的正向分詞法在區分形式詞時容易出錯。比如“珠寶與服裝”會把“和服”單獨作為壹個詞。大夢數據庫采用改進的逆向最大分詞方法,相對於正向提高了正確率。最復雜的是通過統計手段進行分詞的方法。該方法采用隱馬爾可夫鏈,即最後壹個詞的概率依賴於前壹個詞的概率,最後統計所有詞的最大概率作為分詞的依據。該方法對新名詞和地名的識別率遠高於最大匹配法,且準確率隨著樣本文本數量的增加而增加。

二進制分詞方法和統計方法獨立於詞典,而最大匹配分詞方法依賴於詞典,詞典的內容決定了分詞結構的質量。

全文檢索的索引稱為倒排索引,之所以稱為倒排索引,是因為將每個詞作為壹個索引項,根據索引項搜索包含該詞的文本。因此,索引都是單詞,唯壹記錄的文本的標簽具有壹對多的關系。對索引詞進行排序,並根據排序後的詞定位包含這些詞的文本。

步驟1)