Lucene+nutch搜索引擎開發目錄內核揭秘

4.1網絡蜘蛛原理

4.1.1架構設計

4.1.2訪問策略和算法

4.1.3效率優化和更新

4.1.4蜘蛛訪問規範

4.1.5開源蜘蛛簡介

4.2堅果網蜘蛛

Nutch網絡蜘蛛概述

4.2.2 Nutch抓取模式分類

4.2.3抓鬥試驗場地的建立

4.3納奇蘭爬行

4.3.1本地下載準備

4.3.2開始下載過程。

4.3.3下載過程分析

4.3.4下載多個網站

4.4 Nutch互聯網抓取

4.4.1下載列表采集

4.4.2下載大量網站

4.5 Nutch抓取比較

4.6 Nutch結果檢測

4.6.1網頁內容檢索

4.6.2使用Readdb獲取摘要

4.6.3使用SegRead讀取片段

盧克工具的使用

4.7 Nutch配置文件分析

4.8 Heritrix蜘蛛網

4.8.1 Heritrix概述

Heritrix架構

4 . 8 . 3 Heritrix的安裝和使用

4.9匯總5.1文獻標引原則

5.1.1指數概述

5.1.2索引基本結構

5.1.3倒排索引原理

5.1.4指數分類

5.1.5高性能指數

5.2 Lucene索引程序

5 . 2 . 1 Lucene索引介紹

5.2.2 Lucene索引結構

5.2.3多文件索引結構

5.2.4綜合指數結構

5.3 Lucene索引示例

5.3.1索引創建代碼分析

5.3.2索引創建者(IndexWriter)

索引管理器(IndexReader)

指數修飾符

5.3.5指數分析儀(分析儀)

5.4 Lucene索引操作

5.4.1添加文本文件索引

5.4.2創建Lucene增量索引

5.4.3使用索引項刪除文檔

5.4.4使用編號刪除文件。

壓縮文件編號

索引文件更新

5.5 Lucene索引的高級功能

5.5.1選擇索引字段類型。

指數參數的優化

使用磁盤索引

使用內存索引

同步和鎖定機構

5.6 Lucene高級應用示例

5.6.1為本地搜索創建索引

索引數據庫記錄

5.6.3指數優化和整合

5.7堅果中的Lucene指數

5.8匯總6.1信息查詢原則

6.1.1信息查詢概述

6.1.2查詢基本流程

6.1.3查詢結果顯示

6.1.4高性能查詢

6.2 Lucene查詢概述

6.2.1 Lucene查詢操作基礎

6 . 2 . 2 Lucene查詢實例介紹

6.2.3 IndexSearcher類查詢工具

6.2.4查詢封裝查詢類

6.2.5查詢分析器的QueryParser類

6.2.6查詢結果集命中類

6.3 Lucene基本查詢

6.3.1 Lucene查詢對象

6.3.2最小項目查詢$ TermQuery

6.3.3搜索範圍區間查詢

6.3.4邏輯1/4組合搜索布爾值查詢

6.3.5字符串前綴搜索前綴查詢

6.3.6短語搜索短語查詢

模糊搜索模糊查詢

6.3.8通配符搜索通配符查詢

6.3.9位置跨度搜索的跨度查詢

6.4 Lucene高級查詢

6.4.1索引內存檢索

6.4.2多關鍵字跨域檢索

6.4.3多檢索器交叉索引檢索

6.5 Nutch中的Lucene查詢

6.6匯總7.1搜索引擎文檔排序原則

7.1.1傳統檢索排名技術

7.1.2向量模型排序限制

7.1.3搜索引擎相關性排名

7.1.4 PageRank鏈接分析原理

7.1.5搜索引擎排名流程

7.2 Lucene檢索排序

7.2.1 Lucene相關因子

7.2.2 Lucene相關排序流程

7.2.3 Lucene排名計算系統

7.2.4 Lucene排序控制方法

7.3文檔增強加權排序

7.3.1 Lucene中的Boost介紹

7.3.2升壓值的全文檔排序

7.3.3升壓值的文檔域排序

7 . 3 . 4 boosting term查詢排序

7.4排序對象檢索排序

7.4.1排序對象概述

7.4.2排序對象相關性排序

7.4.3排序對象文檔編號排序

7.4.4排序對象獨立域排序

7.4.5排序對象聯合域排序

7.4.6排序對象反向排序

7.5 Lucene相關公式

7.5.1 Lucene評分結果分析

7.5.2 Lucene排序公式

7.5.3其他動態排名因素

7.6 Lucene自定義排序

7.6.1自定義排序比較接口

7.6.2自定義排序接口類實例

7.6.3自定義排序結果測試示例

7.6.4用戶定義的分類測試結果

7.7 nutch中的結果排序

7.7.1 Nutch排序因子

Nutch鏈接分析

7.7.3 Nutch相關性計算

7.8小結8.1文檔分析和中文分詞原理

8.1.1文檔分析預處理概述

8.1.2單據分析的基本流程

8.1.3中文分析與處理中的分詞

8.2 Lucene分析器內核原理

8.2.1 Lucene分析儀原理

分析包介紹

8.2.3分析器類的組合結構

JavaCC結構分析儀

8.2.5 StopAnalyzer內核代碼分析

8.2.6標準分析器內核代碼分析

8.3 Lucene分析器應用模式

8.3.1使用默認解析器來構建索引。

8.3.2使用多臺分析儀建立索引。

8.3.3使用分析器檢索查詢

8.4 Lucene主分析器的應用示例

8.4.1停止字分析器停止分析器

標準分析儀

簡單分析器簡單分析器

白色空間分析儀

關鍵字分析器關鍵字分析器

8.5令牌流分詞器的內核分析

8.5.1分詞器

標準標記器

8.5.3字符分割器

空白令牌化器

字母標註器

8.5.6低級seTokenizer

8.6令牌流過濾器內核分析

8.6.1令牌過濾器過濾器

標準過濾器

8.6.3停用詞過濾器停用過濾器

8.6.4下殼體過濾器下殼體過濾器

長度過濾器

閥桿過濾器端口閥桿過濾器

8.7 Lucene中文分詞

8.7.1中文分詞的基本原則和方法

8.7.2標準分析儀分析儀的中文處理

8.7.3中文分析儀

中文分析器中文分析器

8.7.5 IK_CAnalyzer中文分析儀

8.7.6中國科學院ICTCLAS中文分詞

8.7.7 JE中文分詞

8.7.8中文分詞問題

8.8 Nutch分詞和預處理

8.8.1堅果分析儀

8.8.2 Nutch中文分詞

8.9 9.1非結構化文本概述

9.1.1非結構化文本概述

9.1.2非結構化文本檢索

9.2 HTML文檔分析

主流HTML文檔分析器

9 . 2 . 2 html解析器的安裝配置

9 . 2 . 3 html解析器的框架結構

9.3 HTMLParser應用程序示例

9.3.1 HTMLParser函數模式

HTMLParser內容解析方法

9.3.3訪客模式文本分析

9.3.4過濾模式簡單鏈接提取

9.3.5過濾模式搜索鏈接提取

9.3.6遍歷文檔的Lexer模式

9.4 PDF文檔分析

9.4.1常用PDF處理包

PDFBox安裝配置

9.5 PDFBox應用示例

9.5.1 PDFBox摘錄文檔內容

9.5.2 PDFBox文檔內容索引

9.6辦公室文件分析

9.6.1常用辦公文檔處理包

9.6.2使用POI進行安裝和配置

9 . 6 . 3 POI原理和接口介紹

9.7興趣點分析辦公室文件示例

9.7.1 POI處理Excel文檔

9.7.2興趣點處理Word文檔

9.8 XML文檔分析

9.8.1主流XML文檔分析器

JDOM分析器安裝配置

xerces分析儀安裝配置

9.9 XML解析應用示例

使用JDOM分析XML文檔

9.9.2用xerces分析XML文檔

9.10 Nutch文檔處理

9.11匯總10.1分布式檢索和緩存

10.1.1分布式搜索引擎的現狀

10.1.2分布式搜索引擎原理

10.1.3搜索引擎緩存狀態

10.1.4搜索引擎緩存原理

10.2 Nutch和分布式檢索

10.2.1谷歌分布式文件系統

10.2.2 MapReduce系統介紹

10.2.3 Hadoop分布式文件系統

10.2.4 Nutch分布式文件系統

10.2.5 Nutch分布式檢索概述

10.2.6努奇分布式尋回犬

10.3 Lucene分布式檢索

10.3.1插座通信基礎

10.3.2 Lucene索引服務器

10.4 Nutch和搜索緩存

10.5開源系統緩存系統

10.6匯總