當前位置:成語大全網 - 書法字典 - 《蜂巢進階》詳細講解了存儲格式和壓縮方法。

《蜂巢進階》詳細講解了存儲格式和壓縮方法。

Hive優化包括hql語句邏輯優化、hql參數優化等。,而且還有壹個不顯眼的容易被忽略的細節,就是蜂巢數據倉庫模型表的存儲格式和壓縮方式。hive底層數據基於hadoop以HDFS文件存儲在集群中,為hive數據倉庫模型表選擇合適的存儲格式和壓縮方式也是hive優化的壹個重點。

本文就來說說這個知識點。?

Hive主要有四種存儲格式:textfile、sequencefile、orc和parquet。其中很少使用sequencefile,常見的有orc和parquet,常與壓縮方式合理使用。

建表的說法是:存儲為textfile/orc/parquet。

行存儲,是hive表默認的存儲格式,默認不壓縮數據,有很高的磁盤開銷和數據解析開銷,數據不支持分片(也就是說,意味著對數據的並行操作將無法進行)。

行列式存儲,數據按行劃分,每個塊按列存儲,每個塊存儲壹個索引,支持none、zlib和snappy。默認采用zlib壓縮模式,不支持切片。orc存儲格式可以提高讀寫和處理hive表的性能。

列存儲是面向列的二進制文件格式(不能直接讀取),文件中包含數據和元數據,所以存儲格式是自解析的,在大規模查詢中效率高。parquet主要用於存儲多層嵌套數據,以提供良好的性能支持,默認的方法是不壓縮。

行存儲引擎:同壹數據的不同字段在相鄰位置,所以當要查找某條記錄的所有數據時,行存儲的查詢速度更快。

列存儲引擎:數據是按列聚合的,同壹個字段的值聚合在壹起,所以在查詢指定列的所有數據時,列存儲的查詢速度更快。

Hive主要支持gzip、zlib、snappy和lzo。

壓縮不會改變元數據的整除性,即壓縮後原始值不變。

建桌的說法是:TBL地產(“orc。壓縮" = "爽快")。

判斷壓縮方法的標準主要包括以下幾點:

對壓縮方法進行總結和比較: