深入搜索引擎的目錄

第1章概覽 1

1.1 文檔數據庫（DOCUMENT DATABASES） 7

1.2 壓縮（COMPRESSION） 10

1.3 索引（INDEXES） 12

1.4 文檔索引 16

1.5 MG海量文檔管理系統 20

1.6 進壹步閱讀 21

第2章文本壓縮 23

2.1 模型 26

2.2 自適應模型 29

2.3 哈夫曼編碼 32

範式哈夫曼編碼 38

計算哈夫曼編碼長度 44

總結 51

2.4 算術編碼 51

算術編碼是如何工作的 53

實現算術編碼 56

保存累積計數 59

2.5 符號模型 61

部分匹配預測 61

塊排序壓縮 64

動態馬爾科夫壓縮 69

基於單字的壓縮 71

2.6 字典模型 73

自適應字典編碼器的LZ77系列 74

LZ77的Gzip變體 78

自適應字典編碼器的LZ78系列 79

LZ78的LZW變體 81

2.7 同步 84

創造同步點 84

自同步編碼 87

2.8 性能比較 89

壓縮性能 91

壓縮速度 94

其他性能方面的考慮 97

2.9 進壹步閱讀 98

第3章索引 102

3.1 樣本文檔集合 106

3.2 倒排文件索引 110

3.3 壓縮倒排文件 115

無參模型（Nonparameterized models） 117

全局貝努裏模型 120

全局觀測頻率模型（Global observed frequency model） 123

局部貝努裏模型（Local Bernoulli model） 124

有偏貝努裏模型（Skewed Bernoulli model） 125

局部雙曲模型（Local hyperbolic model） 127

局部觀測頻率模型（Local observed frequency model） 128

上下文相關壓縮（Context-sensitive compression） 130

3.4 索引壓縮方法的效果 133

3.5 簽名文件和位圖 134

簽名文件 135

位片簽名文件（Bitsliced signature files） 139

簽名文件分析 144

位圖 147

簽名文件和位圖的壓縮 148

3.6 索引方法的比較 151

3.7 大小寫折疊、詞根化和停用詞 153

大小寫折疊 154

詞根化 154

影響索引長度的因素 155

停用詞（stop word） 156

3.8 進壹步閱讀 159

第4章查詢 162

4.1 訪問字典的方法 166

訪問數據結構 167

前端編碼（Front coding） 170

最小完美哈希函數 173

完美哈希函數的設計 176

基於磁盤的字典存儲 181

4.2 部分指定的查詢術語 182

字符串暴力匹配（Brute-force string matching） 182

用n-gram索引 183

循環字典（Rotated lexicon） 184

4.3 布爾查詢（BOOLEAN QUERY） 186

合取查詢（conjunctive query） 187

術語處理順序 188

隨機訪問和快速查找 189

分塊倒排索引 192

非合取查詢（Nonconjunctive query） 194

4.4 信息檢索和排名 195

坐標匹配（Coordinate matching） 195

內積相似度 196

向量空間模型 202

4.5 檢索效果評價 205

召回率和精確率 205

召回率-精確率曲線 207

TREC項目 208

萬維網搜索（World Wide Web Searching） 212

其他有效性評價方法 215

4.6 余弦法實現 216

文檔內頻率 217

余弦值的計算方法 220

文檔權重所需的內存 222

累加器內存 227

快速查詢處理 228

按頻率排序的索引 229

排序 233

4.7 交互式檢索 236

相關性反饋 237

概率模型 239

4.8 分布式檢索 241

4.9 進壹步閱讀 245

第5章索引構造 248

計算模型 251

索引構造方法概覽 252

5.1 基於內存的倒排 253

5.2 基於排序的倒排 256

5.3 索引壓縮 261

壓縮臨時文件 261

多路歸並 264

原地多路歸並 265

5.4 壓縮的內存內倒排 271

大內存倒排 271

基於字典的切分（Lexicon-based partitioning） 276

基於文本的切分 278

5.5 倒排方法的比較 281

5.6 構造簽名文件和位圖 282

5.7 動態文檔集合 284

擴展文本（Expanding the text） 284

索引擴展（Expanding the index） 285

5.8 進壹步閱讀 290

第6章圖像壓縮 292

6.1 圖像類型 293

6.2 CCITT二值圖像的傳真標準 297

6.3 二值圖像的上下文壓縮 301

上下文模型 304

二值上下文模型 307

“超視力”壓縮（Clairvoyant compression） 309

6.4 JBIG：二值圖像標準 310

分辨率降低（Resolution reduction） 311

模板和自適應模板 316

編碼及概率估計 317

6.5 連續色調圖像的無損壓縮 318

GIF和PNG無損圖像格式 319

FELICS：快速、有效且無損圖像壓縮系統 321

CALIC：基於上下文自適應無損圖像解碼器 325

JPEG-LS：無損圖像壓縮新標準 326

6.6 JPEG：連續色調圖像標準 328

6.7 圖像的遞增傳輸 334

金字塔編碼 335

金字塔編碼的壓縮 335

中位數聚合 337

誤差模型 338

6.8 圖像壓縮技術總結 339

6.9 進壹步閱讀 341

第7章文本圖像 343

7.1 文本圖像壓縮概念 345

7.2 有損和無損壓縮 349

7.3 標記抽取 351

跟蹤標記的邊界 351

清除圖像中的標記 354

按自然閱讀順序排序標記 356

7.4 模板匹配 357

全局模板匹配 358

局部模板匹配 360

基於壓縮的模板匹配 361

庫模板篩法 364

評價模板匹配方法 365

7.5 從標記到符號 369

庫構造 369

符號及其偏移量 371

7.6 編碼文本圖像分量 372

庫 372

符號數 373

符號偏移 373

原始圖像 374

7.7 效果：有損和無損的模式 376

7.8 系統考慮 381

7.9 JBIG2：圖像文本壓縮標準 383

7.10 進壹步閱讀 385

第8章混合圖文 386

8.1 方向 388

用Hough變換檢測直線 389

左側留白查找 391

投影輪廓 392

從斜率直方圖到文本譜 397

8.2 切分 401

自下向上的切分方法 401

自上向下的組合的切分方法 403

基於標記的切分 404

使用短文本字符串切分 406

利用文本句法切分 409

8.3 分類 410

8.4 進壹步閱讀 413

第9章系統實現 415

9.1 文本壓縮 416

選擇壓縮模型 417

選擇編碼器 420

哈夫曼編碼的限制 422

長度限制的編碼 428

9.2 文本壓縮效果 433

壓縮有效性 433

解壓速度 437

解壓內存 437

動態文檔集合 440

9.3 圖像和文本圖像 442

壓縮二值圖像 444

壓縮灰度圖像 445

壓縮文本圖像 445

9.4 構造索引 447

9.5 索引壓縮 449

9.6 查詢處理 451

布爾查詢 451

排名查詢 454

9.7 進壹步閱讀 456

第10章信息爆炸 458

10.1 信息技術發展2 000年 458

10.2 INTERNET：壹種全球信息資源 460

10.3 紙張問題 463

10.4 面對信息爆炸 465

網頁搜索引擎 465

基於代理的信息檢索 467

數據挖掘 469

10.5 數字圖書館 469

10.6 更好地管理海量數據 471

10.7 小就是美 473

10.8 對生活的個人信息支持 475

10.9 進壹步閱讀 476

附錄A MG系統指南 478

A.1 安裝MG系統 478

A.2 壹個簡單的存儲和檢索例子 480

A.3 數據庫創建 485

A.4 對壹個索引文檔集合進行查詢 489

A.5 非文本文件 491

A.6 圖像壓縮程序 493

附錄B 新西蘭圖書館 494

B.1 什麽是NZDL 494

其他文檔集合 497

文檔集合的發展 501

音頻集合（audio collections） 502

音調索引（Melody Index） 503

B.2 NZDL是如何工作的？ 505

原始文檔 505

搜索和索引 506

B.3 影響 508

B.4 進壹步閱讀 508

深入搜索引擎的目 錄

深入搜索引擎的目錄