Hive是基於Hadoop的數據倉庫工具,可以將結構化的數據文件映射到壹個數據庫表中,提供簡單的sql查詢功能,將sql語句轉換成MapReduce任務運行。它的優點是學習成本低,不需要開發專門的MapReduce應用,通過類似SQL的語句就可以快速實現簡單的MapReduce統計,非常適合數據倉庫的統計分析。
Spark是壹個類似Hadoop的開源集群計算環境,但兩者還是有壹些區別的。這些有用的差異使得Spark在某些工作負載上更勝壹籌。換句話說,Spark支持內存分布式數據集,不僅可以提供交互式查詢,還可以優化叠代工作負載。
雖然Spark的創建是為了支持分布式數據集上的叠代作業,但它實際上是Hadoop的補充,可以在Hadoop文件系統中並行運行。這種行為可以由名為Mesos的第三方集群框架來支持。
Hadoop(hive)& lt;-火花(擴展)