當前位置:成語大全網 - 書法字典 - Hadoop、Hive、Spark之間是什麽關系?

Hadoop、Hive、Spark之間是什麽關系?

Hadoop是由Apache基金會開發的分布式系統基礎設施。Hadoop也是apache開源大數據的壹個生態系統,裏面包含了壹些與大數據開源框架相關的軟件,包括hdfs、hive、zookeeper、hbase等。Hadoop框架的核心設計是:HDFS和MapReduce。HDFS為海量數據提供存儲,MapReduce為海量數據提供計算。

Hive是基於Hadoop的數據倉庫工具,可以將結構化的數據文件映射到壹個數據庫表中,提供簡單的sql查詢功能,將sql語句轉換成MapReduce任務運行。它的優點是學習成本低,不需要開發專門的MapReduce應用,通過類似SQL的語句就可以快速實現簡單的MapReduce統計,非常適合數據倉庫的統計分析。

Spark是壹個類似Hadoop的開源集群計算環境,但兩者還是有壹些區別的。這些有用的差異使得Spark在某些工作負載上更勝壹籌。換句話說,Spark支持內存分布式數據集,不僅可以提供交互式查詢,還可以優化叠代工作負載。

雖然Spark的創建是為了支持分布式數據集上的叠代作業,但它實際上是Hadoop的補充,可以在Hadoop文件系統中並行運行。這種行為可以由名為Mesos的第三方集群框架來支持。

Hadoop(hive)& lt;-火花(擴展)