Hadoop、Hive、Spark之間是什麽關系？

Hadoop是由Apache基金會開發的分布式系統基礎設施。Hadoop也是apache開源大數據的壹個生態系統，裏面包含了壹些與大數據開源框架相關的軟件，包括hdfs、hive、zookeeper、hbase等。Hadoop框架的核心設計是:HDFS和MapReduce。HDFS為海量數據提供存儲，MapReduce為海量數據提供計算。

Hive是基於Hadoop的數據倉庫工具，可以將結構化的數據文件映射到壹個數據庫表中，提供簡單的sql查詢功能，將sql語句轉換成MapReduce任務運行。它的優點是學習成本低，不需要開發專門的MapReduce應用，通過類似SQL的語句就可以快速實現簡單的MapReduce統計，非常適合數據倉庫的統計分析。

Spark是壹個類似Hadoop的開源集群計算環境，但兩者還是有壹些區別的。這些有用的差異使得Spark在某些工作負載上更勝壹籌。換句話說，Spark支持內存分布式數據集，不僅可以提供交互式查詢，還可以優化叠代工作負載。

雖然Spark的創建是為了支持分布式數據集上的叠代作業，但它實際上是Hadoop的補充，可以在Hadoop文件系統中並行運行。這種行為可以由名為Mesos的第三方集群框架來支持。

Hadoop(hive)& lt；-火花(擴展)