第1章 概覽 1
1.1 文檔數據庫(DOCUMENT DATABASES) 7
1.2 壓縮(COMPRESSION) 10
1.3 索引(INDEXES) 12
1.4 文檔索引 16
1.5 MG海量文檔管理系統 20
1.6 進壹步閱讀 21
第2章 文本壓縮 23
2.1 模型 26
2.2 自適應模型 29
2.3 哈夫曼編碼 32
範式哈夫曼編碼 38
計算哈夫曼編碼長度 44
總結 51
2.4 算術編碼 51
算術編碼是如何工作的 53
實現算術編碼 56
保存累積計數 59
2.5 符號模型 61
部分匹配預測 61
塊排序壓縮 64
動態馬爾科夫壓縮 69
基於單字的壓縮 71
2.6 字典模型 73
自適應字典編碼器的LZ77系列 74
LZ77的Gzip變體 78
自適應字典編碼器的LZ78系列 79
LZ78的LZW變體 81
2.7 同步 84
創造同步點 84
自同步編碼 87
2.8 性能比較 89
壓縮性能 91
壓縮速度 94
其他性能方面的考慮 97
2.9 進壹步閱讀 98
第3章 索引 102
3.1 樣本文檔集合 106
3.2 倒排文件索引 110
3.3 壓縮倒排文件 115
無參模型(Nonparameterized models) 117
全局貝努裏模型 120
全局觀測頻率模型(Global observed frequency model) 123
局部貝努裏模型(Local Bernoulli model) 124
有偏貝努裏模型(Skewed Bernoulli model) 125
局部雙曲模型(Local hyperbolic model) 127
局部觀測頻率模型(Local observed frequency model) 128
上下文相關壓縮(Context-sensitive compression) 130
3.4 索引壓縮方法的效果 133
3.5 簽名文件和位圖 134
簽名文件 135
位片簽名文件(Bitsliced signature files) 139
簽名文件分析 144
位圖 147
簽名文件和位圖的壓縮 148
3.6 索引方法的比較 151
3.7 大小寫折疊、詞根化和停用詞 153
大小寫折疊 154
詞根化 154
影響索引長度的因素 155
停用詞(stop word) 156
3.8 進壹步閱讀 159
第4章 查詢 162
4.1 訪問字典的方法 166
訪問數據結構 167
前端編碼(Front coding) 170
最小完美哈希函數 173
完美哈希函數的設計 176
基於磁盤的字典存儲 181
4.2 部分指定的查詢術語 182
字符串暴力匹配(Brute-force string matching) 182
用n-gram索引 183
循環字典(Rotated lexicon) 184
4.3 布爾查詢(BOOLEAN QUERY) 186
合取查詢(conjunctive query) 187
術語處理順序 188
隨機訪問和快速查找 189
分塊倒排索引 192
非合取查詢(Nonconjunctive query) 194
4.4 信息檢索和排名 195
坐標匹配(Coordinate matching) 195
內積相似度 196
向量空間模型 202
4.5 檢索效果評價 205
召回率和精確率 205
召回率-精確率曲線 207
TREC項目 208
萬維網搜索(World Wide Web Searching) 212
其他有效性評價方法 215
4.6 余弦法實現 216
文檔內頻率 217
余弦值的計算方法 220
文檔權重所需的內存 222
累加器內存 227
快速查詢處理 228
按頻率排序的索引 229
排序 233
4.7 交互式檢索 236
相關性反饋 237
概率模型 239
4.8 分布式檢索 241
4.9 進壹步閱讀 245
第5章 索引構造 248
計算模型 251
索引構造方法概覽 252
5.1 基於內存的倒排 253
5.2 基於排序的倒排 256
5.3 索引壓縮 261
壓縮臨時文件 261
多路歸並 264
原地多路歸並 265
5.4 壓縮的內存內倒排 271
大內存倒排 271
基於字典的切分(Lexicon-based partitioning) 276
基於文本的切分 278
5.5 倒排方法的比較 281
5.6 構造簽名文件和位圖 282
5.7 動態文檔集合 284
擴展文本(Expanding the text) 284
索引擴展(Expanding the index) 285
5.8 進壹步閱讀 290
第6章 圖像壓縮 292
6.1 圖像類型 293
6.2 CCITT二值圖像的傳真標準 297
6.3 二值圖像的上下文壓縮 301
上下文模型 304
二值上下文模型 307
“超視力”壓縮(Clairvoyant compression) 309
6.4 JBIG:二值圖像標準 310
分辨率降低(Resolution reduction) 311
模板和自適應模板 316
編碼及概率估計 317
6.5 連續色調圖像的無損壓縮 318
GIF和PNG無損圖像格式 319
FELICS:快速、有效且無損圖像壓縮系統 321
CALIC:基於上下文自適應無損圖像解碼器 325
JPEG-LS:無損圖像壓縮新標準 326
6.6 JPEG:連續色調圖像標準 328
6.7 圖像的遞增傳輸 334
金字塔編碼 335
金字塔編碼的壓縮 335
中位數聚合 337
誤差模型 338
6.8 圖像壓縮技術總結 339
6.9 進壹步閱讀 341
第7章 文本圖像 343
7.1 文本圖像壓縮概念 345
7.2 有損和無損壓縮 349
7.3 標記抽取 351
跟蹤標記的邊界 351
清除圖像中的標記 354
按自然閱讀順序排序標記 356
7.4 模板匹配 357
全局模板匹配 358
局部模板匹配 360
基於壓縮的模板匹配 361
庫模板篩法 364
評價模板匹配方法 365
7.5 從標記到符號 369
庫構造 369
符號及其偏移量 371
7.6 編碼文本圖像分量 372
庫 372
符號數 373
符號偏移 373
原始圖像 374
7.7 效果:有損和無損的模式 376
7.8 系統考慮 381
7.9 JBIG2:圖像文本壓縮標準 383
7.10 進壹步閱讀 385
第8章 混合圖文 386
8.1 方向 388
用Hough變換檢測直線 389
左側留白查找 391
投影輪廓 392
從斜率直方圖到文本譜 397
8.2 切分 401
自下向上的切分方法 401
自上向下的組合的切分方法 403
基於標記的切分 404
使用短文本字符串切分 406
利用文本句法切分 409
8.3 分類 410
8.4 進壹步閱讀 413
第9章 系統實現 415
9.1 文本壓縮 416
選擇壓縮模型 417
選擇編碼器 420
哈夫曼編碼的限制 422
長度限制的編碼 428
9.2 文本壓縮效果 433
壓縮有效性 433
解壓速度 437
解壓內存 437
動態文檔集合 440
9.3 圖像和文本圖像 442
壓縮二值圖像 444
壓縮灰度圖像 445
壓縮文本圖像 445
9.4 構造索引 447
9.5 索引壓縮 449
9.6 查詢處理 451
布爾查詢 451
排名查詢 454
9.7 進壹步閱讀 456
第10章 信息爆炸 458
10.1 信息技術發展2 000年 458
10.2 INTERNET:壹種全球信息資源 460
10.3 紙張問題 463
10.4 面對信息爆炸 465
網頁搜索引擎 465
基於代理的信息檢索 467
數據挖掘 469
10.5 數字圖書館 469
10.6 更好地管理海量數據 471
10.7 小就是美 473
10.8 對生活的個人信息支持 475
10.9 進壹步閱讀 476
附錄A MG系統指南 478
A.1 安裝MG系統 478
A.2 壹個簡單的存儲和檢索例子 480
A.3 數據庫創建 485
A.4 對壹個索引文檔集合進行查詢 489
A.5 非文本文件 491
A.6 圖像壓縮程序 493
附錄B 新西蘭圖書館 494
B.1 什麽是NZDL 494
其他文檔集合 497
文檔集合的發展 501
音頻集合(audio collections) 502
音調索引(Melody Index) 503
B.2 NZDL是如何工作的? 505
原始文檔 505
搜索和索引 506
B.3 影響 508
B.4 進壹步閱讀 508