答:Hadoop是壹個基於廉價設備的分布式存儲和分析框架,利用集群的力量安全地存儲和高效地計算海量數據。Hadoop本身是壹個龐大的項目家族,其核心家族或底層是HDFS和MapReduce。HDFS和MapReduce分別用於實現海量數據的存儲和分析。其他項目,例如,Hive、HBase等。所有子項目都基於HDFS和MapReduce,旨在解決特定類型的大數據處理問題。使用Hive、HBase和其他子項目可以更容易地在更高的抽象基礎上編寫分布式大數據處理程序。Hadoop的其他子項目包括common、AVRO、PIG、Zookeeper、SQOOP、OOZIE等。隨著時間的推移,將增加壹些新的子項目,壹些關註度較低的項目將從Hadoop家族中刪除,因此Hadoop是壹個動態系統。
Apache Hadoop:它是Apache開源組織的分布式計算開源框架,提供了分布式文件系統子項目(HDFS)和支持MapReduce分布式計算的軟件架構。
Apache Hive是基於Hadoop的數據倉庫工具,可以將結構化數據文件映射到數據庫表中,並通過類SQL語句快速實現簡單的MapReduce統計,無需開發專門的MapReduce應用程序,非常適合數據倉庫的統計分析。
ApachePig:是基於Hadoop的大規模數據分析工具。它提供的類似SQL的語言被稱為Pig Latin。這種語言的編譯器會將類似SQL的數據分析請求轉換為壹系列優化的MapReduce操作。
ApacheHBase:它是壹個高可靠性、高性能、面向列且可擴展的分布式存儲系統。使用HBase技術,可以在廉價的PC服務器上構建大規模結構化存儲集群。
Apache Sqoop:它是壹個在Hadoop和關系數據庫之間傳輸數據的工具。它可以從關系數據庫(MySQL、Oracle、Postgres等)導入數據。)導入Hadoop的HDFS或將數據從HDFS導入關系數據庫。
Apache Zookeeper是壹個為分布式應用程序設計的分布式開源協調服務。主要用於解決分布式應用中經常遇到的壹些數據管理問題,簡化分布式應用的協調和管理難度,提供高性能的分布式服務。ApacheMahout是壹個基於Hadoop的機器學習和數據挖掘的分布式框架。Mahout用MapReduce實現了壹些數據挖掘算法,解決了並行挖掘的問題。
ApacheCassandra:它是壹個開源的分布式NoSQL數據庫系統。最初由臉書開發,用於存儲簡單格式的數據。它集成了Google BigTable的數據模型和AmazonDynamo的完全分布式架構。Apache Avro是壹個數據序列化系統,旨在支持數據密集型和大規模數據交換應用程序。Avro是壹種新的數據序列化格式和傳輸工具,它將逐漸取代Hadoop的原始IPC機制ApacheAmbari。AVRO是壹個基於網絡的工具,支持Hadoop集群的供應、管理和監控。
ApacheChukwa是壹個用於監控大型分布式系統的開源數據收集系統。它可以將各種類型的數據收集到適合Hadoop處理的文件中,並將其保存在HDFS中供Hadoop執行各種MapReduce操作。
ApacheHama:它是壹個基於HDFS的BSP(批量同步並行)並行計算框架。Hama可用於大規模和大數據計算,包括圖、矩陣和網絡算法。
ApacheFlume是壹個分布式、可靠、高可用的海量日誌聚合系統,可用於日誌數據采集、日誌數據處理和日誌數據傳輸。
ApacheGiraph:它是壹個可擴展的分布式叠代圖形處理系統,基於Hadoop平臺,並受到BSP(批量同步並行)和Google的Pregel的啟發。
ApacheOozie:它是壹個工作流引擎服務器,用於管理和協調運行在Hadoop平臺(HDFS、Pig和MapReduce)上的任務。
ApacheCrunch是壹個基於Google的FlumeJava庫的Java庫,用於創建MapReduce程序。與Hive和Pig類似,Crunch為連接數據、執行聚合和排序記錄等常見任務提供了模式庫:ApacheWhirr是壹組在雲服務中運行的類庫(包括Hadoop),可以提供高度的互補性。Whirr支持亞馬遜EC2和Rackspace服務。
ApacheBigtop:它是壹個用於打包、分發和測試Hadoop及其周圍生態的工具。
ApacheHCatalog:它基於Hadoop的數據表和存儲管理,實現了集中的元數據和模式管理,橫跨Hadoop和RDBMS,並通過使用Pig和Hive提供關系視圖。
ClouderaHue:壹個基於web的監控和管理系統,實現了對HDFS、MapReduce/Yarn、HBase、Hive和Pig的基於web的操作和管理。