影響數據檢索效率的幾個因素

數據檢索有兩種主要形態。第壹種是純數據庫型的。典型的結構是壹個關系型數據，比如 mysql。用戶通過 SQL 表達出所需要的數據，mysql 把 SQL 翻譯成物理的數據檢索動作返回結果。第二種形態是現在越來越流行的大數據玩家的玩法。典型的結構是有壹個分區的數據存儲，最初這種存儲就是原始的 HDFS，後來開逐步有人在 HDFS 上加上索引的支持，或者幹脆用 Elasticsearc 這樣的數據存儲。然後在存儲之上有壹個分布式的實時計算層，比如 Hive 或者 Spark SQL。用戶用 Hive SQL 提交給計算層，計算層從存儲裏拉取出數據，進行計算之後返回給用戶。這種大數據的玩法起初是因為 SQL 有很多 ad-hoc 查詢是滿足不了的，幹脆讓用戶自己寫 map/reduce 想怎麽算都可以了。但是後來玩大了之後，越來越多的人覺得這些 Hive 之類的方案查詢效率怎麽那麽低下啊。於是壹個又壹個項目開始去優化這些大數據計算框架的查詢性能。這些優化手段和經典的數據庫優化到今天的手段是沒有什麽兩樣的，很多公司打著搞計算引擎的旗號幹著重新發明數據庫的活。所以，回歸本質，影響數據檢索效率的就那麽幾個因素。我們不妨來看壹看。

數據檢索幹的是什麽事情

定位 => 加載 => 變換

找到所需要的數據，把數據從遠程或者磁盤加載到內存中。按照規則進行變換，比如按某個字段group by，取另外壹個字段的sum之類的計算。

影響效率的四個因素

讀取更少的數據

數據本地化，充分遵循底層硬件的限制設計架構

更多的機器

更高效率的計算和計算的物理實現

原則上的四點描述是非常抽象的。我們具體來看這些點映射到實際的數據庫中都是壹些什麽樣的優化措施。

讀取更少的數據

數據越少，檢索需要的時間當然越少了。在考慮所有技術手段之前，最有效果的恐怕是從業務的角度審視壹下我們是否需要從那麽多的數據中檢索出結果來。有沒有可能用更少的數據達到同樣的效果。減少的數據量的兩個手段，聚合和抽樣。如果在入庫之前把數據就做了聚合或者抽樣，是不是可以極大地減少查詢所需要的時間，同時效果上並無多少差異呢？極端情況下，如果需要的是壹天的總訪問量，比如有1個億。查詢的時候去數1億行肯定快不了。但是如果統計好了壹天的總訪問量，查詢的時候只需要取得壹條記錄就可以知道今天有1個億的人訪問了。

索引是壹種非常常見的減少數據讀取量的策略了。壹般的按行存儲的關系型數據庫都會有壹個主鍵。用這個主鍵可以非常快速的查找到對應的行。KV存儲也是這樣，按照Key可以快速地找到對應的Value。可以理解為壹個Hashmap。但是壹旦查詢的時候不是用主鍵，而是另外壹個字段。那麽最糟糕的情況就是進行壹次全表的掃描了，也就是把所有的數據都讀取出來，然後看要的數據到底在哪裏，這就不可能快了。減少數據讀取量的最佳方案就是，建立壹個類似字典壹樣的查找表，當我們找 username=wentao 的時候，可以列舉出所有有 wentao 作為用戶名的行的主鍵。然後拿這些主鍵去行存儲（就是那個hashmap）裏撈數據，就壹撈壹個準了。

談到索引就不得不談壹下壹個查詢使用了兩個字段，如何使用兩個索引的問題。mysql的行為可以代表大部分主流數據庫的處理方式：

基本上來說，經驗表明有多個單字段的索引，最後數據庫會選壹最優的來使用。其余字段的過濾仍然是通過數據讀取到內存之後，用predicate去判斷的。也就是無法減少數據的讀取量。

在這個方面基於inverted index的數據就非常有特點。壹個是Elasticsearch為代表的lucene系的數據庫。另外壹個是新銳的druid數據庫。

效果就是，這些數據庫可以把單字段的filter結果緩存起來。多個字段的查詢可以把之前緩存的結果直接拿過來做 AND 或者 OR 操作。

索引存在的必要是因為主存儲沒有提供直接的快速定位的能力。如果訪問的就是數據庫的主鍵，那麽需要讀取的數據也就非常少了。另外壹個變種就是支持遍歷的主鍵，比如hbase的rowkey。如果查詢的是壹個基於rowkey的範圍，那麽像hbase這樣的數據庫就可以支持只讀取到這個範圍內的數據，而不用讀取不再這個範圍內的額外數據，從而提高速度。這種加速的方式就是利用了主存儲自身的物理分布的特性。另外壹個更常見的場景就是 partition。比如 mysql 或者 postgresql 都支持分區表的概念。當我們建立了分區表之後，查找的條件如果可以過濾出分區，那麽可以大幅減少需要讀取的數據量。比 partition 更細粒度壹些的是 clustered index。它其實不是壹個索引（二級索引），它是改變了數據在主存儲內的排列方式，讓相同clustered key的數據彼此緊挨著放在壹起，從而在查詢的時候避免掃描到無關的數據。比 partition 更粗壹些的是分庫分表分文件。比如我們可以壹天建立壹張表，查詢的時候先定位到表，再執行 SQL。比如 graphite 給每個 metric 創建壹個文件存放采集來的 data point，查詢的時候給定metric 就可以定位到壹個文件，然後只讀取這個文件的數據。

另外還有壹點就是按行存儲和按列存儲的區別。按列存儲的時候，每個列是壹個獨立的文件。查詢用到了哪幾個列就打開哪幾個列的文件，沒有用到的列的數據碰都不會碰到。反觀按行存儲，壹張中的所有字段是彼此緊挨在磁盤上的。壹個表如果有100個字段，哪怕只選取其中的壹個字段，在掃描磁盤的時候其余99個字段的數據仍然會被掃描到的。

考慮壹個具體的案例，時間序列數據。如何使用讀取更少的數據的策略來提高檢索的效率呢？首先，我們可以保證入庫的時間粒度，維度粒度是正好是查詢所需要的。如果查詢需要的是5分鐘數據，但是入庫的是1分鐘的，那麽就可以先聚合成5分鐘的再存入數據庫。對於主存儲的物理布局選擇，如果查詢總是針對壹個時間範圍的。那麽把 timestamp 做為 hbase 的 rowkey，或者 mysql 的 clustered index 是合適。這樣我們按時間過濾的時候，選擇到的是壹堆連續的數據，不用讀取之後再過濾掉不符合條件的數據。但是如果在壹個時間範圍內有很多中數據，比如1萬個IP，那麽即便是查1個IP的數據也需要把1萬個IP的數據都讀取出來。所以可以把 IP 維度也編碼到 rowkey 或者 clustered index 中。但是假如另外還有壹個維度是 OS，那麽查詢的時候 IP 維度的 rowkey 是沒有幫助的，仍然是要把所有的數據都查出來。這就是僅依靠主存儲是無法滿足各種查詢條件下都能夠讀取更少的數據的原因。所以，二級索引是必要的。我們可以把時間序列中的所有維度都拿出來建立索引，然後查詢的時候如果指定了維度，就可以用二級索引把真正需要讀取的數據過濾出來。但是實踐中，很多數據庫並不因為使用了索引使得查詢變快了，有的時候反而變得更慢了。對於 mysql 來說，存儲時間序列的最佳方式是按時間做 partition，不對維度建立任何索引。查詢的時候只過濾出對應的 partition，然後進行全 partition 掃描，這樣會快過於使用二級索引定位到行之後再去讀取主存儲的查詢方式。究其原因，就是數據本地化的問題了。

[page]

數據本地化

數據本地化的實質是軟件工程師們要充分尊重和理解底層硬件的限制，並且用各種手段規避問題最大化利用手裏的硬件資源。本地化有很多種形態

最常見的最好理解的本地化問題是網絡問題。我們都知道網絡帶寬不是無限的，比本地磁盤慢多了。如果可能盡量不要通過網絡去訪問數據。即便要訪問，也應該壹次抓取多壹些數據，而不是壹次搞壹點，然後搞很多次。因為網絡連接和來回的開銷是非常高的。這就是 data locality 的問題。我們要把計算盡可能的靠近數據，減少網絡上傳輸的數據量。

這種帶寬引起的本地化問題，還有很多。網絡比硬盤慢，硬盤比內存慢，內存比L2緩存慢。做到極致的數據庫可以讓計算完全發生在 L2 緩存內，盡可能地避免頻繁地在內存和L2之間倒騰數據。

另外壹種形態的問題化問題是磁盤的順序讀和隨機讀的問題。當數據彼此靠近地物理存放在磁盤上的時候，順序讀取壹批是非常快的。如果需要隨機讀取多個不連續的硬盤位置，磁頭就要來回移動從而使得讀取速度快速下降。即便是 SSD 硬盤，順序讀也是要比隨機讀快的。

基於盡可能讓數據讀取本地化的原則，檢索應該盡可能地使用順序讀而不是隨機讀。如果可以的話，把主存儲的row key或者clustered index設計為和查詢提交壹樣的。時間序列如果都是按時間查，那麽按時間做的row key可以非常高效地以順序讀的方式把數據拉取出來。類似地，按列存儲的數據如果要把壹個列的數據都取出來加和的話，可以非常快地用順序讀的方式加載出來。

二級索引的訪問方式典型的隨機讀。當查詢條件經過了二級索引查找之後得到壹堆的主存儲的 key，那麽就需要對每個 key 進行壹次隨機讀。即便彼此僅靠的key可以用順序讀做壹些優化，總體上來說仍然是隨機讀的模式。這也就是為什麽時間序列數據在 mysql 裏建立了索引反而比沒有建索引還要慢的原因。

為了盡可能的利用順序讀，人們就開始想各種辦法了。前面提到了 mysql 裏的壹行數據的多個列是彼此緊靠地物理存放的。那麽如果我們把所需要的數據建成多個列，那麽壹次查詢就可以批量獲得更多的數據，減少隨機讀取的次數。也就是把之前的壹些行變為列的方式來存放，減少行的數量。這種做法的經典案例就是時間序列數據，比如可以壹分鐘存壹行數據，每壹秒的值變成壹個列。那麽行的數量可以變成之前的1/60。

但是這種行變列的做法在按列存儲的數據庫裏就不能直接照搬了，有些列式數據庫有column family的概念，不同的設置在物理上存放可能是在壹起的也可能是分開的。對於 Elasticsearch 來說，要想減少行的數量，讓壹行多pack壹些數據進去，壹種做法就是利用 nested document。內部 Elasticsearch 可以保證壹個 document 下的所有的 nested document是物理上靠在壹起放在同壹個 lucene 的 segment 內。

網絡的data locality就比較為人熟知了。map reduce的大數據計算模式就是利用map在數據節點的本地把數據先做壹次計算，往往計算的結果可以比原數據小很多。然後再通過網絡傳輸匯總後做 reduce 計算。這樣就節省了大量網絡傳輸數據的時間浪費和資源消耗。現在 Elasticsearch 就支持在每個 data node 上部署 spark。由 spark 在每個 data node 上做計算。而不用把數據都查詢出來，用網絡傳輸到 spark 集群裏再去計算。這種數據庫和計算集群的混合部署是高性能的關鍵。類似的還有 storm 和 kafka 之間的關系。

網絡的data locality還有壹個老大難問題就是分布式大數據下的多表join問題。如果只是查詢壹個分布式表，那麽把計算用 map reduce 表達就沒有多大問題了。但是如果需要同時查詢兩個表，就意味著兩個表可能不是在物理上同樣均勻分布的。壹種最簡單的策略就是找出兩張表中最小的那張，然後把表的內容廣播到每個節點上，再做join。復雜壹些的是對兩個單表做 map reduce，然後按照相同的 key 把部分計算的結果匯集在壹起。第三種策略是保證數據分布的方式，讓兩張表查詢的時候需要用到的數據總在壹起。沒有完美的方案，也不大可能有完美的方案。除非有壹天網絡帶寬可以大到忽略不計的地步。

更多的機器

這個就沒有什麽好說的了。多壹倍的機器就多壹倍的 CPU，可以同時計算更多的數據。多壹倍的機器就多壹倍的磁頭，可以同時掃描更多的字節數。很多大數據框架的故事就是講如何如何通過 scale out解決無限大的問題。但是值得註意的是，集群可以無限大，數據可以無限多，但是口袋裏的銀子不會無限多的。堆機器解決問題比升級大型機是要便宜，但是機器堆多了也是非常昂貴的。特別是 Hive 這些從壹開始就是分布式多機的檢索方案，剛開始的時候效率並不高。堆機器是壹個乘數，當數據庫本來單機性能不高的時候，乘數大並不能起到決定性的作用。

更高效的計算和計算實現

檢索的過程不僅僅是磁盤掃描，它還包括壹個可簡單可復雜的變換過程。使用 hyperloglog，count min-sketch等有損算法可以極大地提高統計計算的性能。數據庫的join也是壹個經常有算法創新的地方。

計算實現就是算法是用C++實現的還是用java，還是python實現的。用java是用大Integer實現的，還是小int實現的。不同的語言的實現方式會有壹些固定的開銷。不是說快就壹定要C++，但是 python 寫 for 循環是顯然沒有指望的。任何數據檢索的環節只要包含 python/ruby 這些語言的逐條 for 循環就壹定快不起來了。

結論

希望這四點可以被記住，成為壹種指導性的優化數據檢索效率的思維框架。無論妳是設計壹個mysql表結構，還是優化壹個spark sql的應用。從這四個角度想想，都有哪些環節是在拖後腿的，手上的工具有什麽樣的參數可以調整，讓隨機讀變成順序讀，表結構怎麽樣設計可以最小化數據讀取的量。要做到這壹點，妳必須非常非常了解工具的底層實現。而不是盲目的相信，xx數據庫是最好的數據庫，所以它壹定很快之類的。如果妳不了解妳手上的數據庫或者計算引擎，當它快的時候妳不知道為何快，當它慢的時候妳就更加無從優化了。