Hive數據倉庫工具可以將結構化數據文件映射到數據庫表中,並提供SQL查詢功能,可以將SQL語句轉換為MapReduce任務來執行。Hive的優勢是學習成本低,它可以通過類似的SQL語句實現快速的MapReduce統計,使MapReduce更簡單,而無需開發專門的MapReduce應用程序。Hive非常適合數據倉庫的統計分析。
簡介
Hive是壹個基於Hadoop的數據倉庫分析系統,它提供了豐富的SQL查詢方法來分析存儲在Hadoop分布式文件系統中的數據:可以將結構化數據文件映射到壹個數據庫表中,並提供完整的SQL查詢功能;您可以將SQL語句轉換為MapReduce任務來運行,並通過您自己的SQL查詢來分析所需的內容。
這組SQL被簡稱為Hive SQL,它方便了不熟悉mapreduce的用戶使用SQL語言查詢、匯總和分析數據。Mapreduce開發人員可以使用自己的mapper和reducer作為插件來支持hive進行更復雜的數據分析。它與關系數據庫的SQL略有不同,但它支持DDL和DML等大多數語句,以及常見的聚合函數、連接查詢和條件查詢。
它還提供了壹系列用於數據提取、轉換和加載的工具,以存儲、查詢和分析存儲在Hadoop中的大規模數據集。它還支持UDF(用戶自定義函數)、UDAF(用戶自定義聚合函數)和UDTF(用戶自定義生成表函數),還可以自定義映射和歸約函數,為數據操作提供良好的可擴展性和擴展性。