Hadoop是壹個可以分發大量數據的軟件框架。但是Hadoop是以壹種可靠、高效和可擴展的方式處理的。Hadoop之所以可靠,是因為它假設計算元素和存儲會出現故障,所以它維護工作數據的多個副本,以確保可以為出現故障的節點重新分配處理。Hadoop是高效的,因為它以並行方式工作,從而加快了處理速度。Hadoop也是可擴展的,可以處理PB級的數據。另外,Hadoop依賴於社區服務器,所以成本相對較低,任何人都可以使用。
2、HPCC
HPCC的縮寫,高性能計算和通信。1993年,美國聯邦科學、工程和技術協調委員會提交給國會。主要挑戰:高性能計算和通信?該報告也被稱為HPCC計劃,是美國總統的科學戰略項目,旨在通過加強研發來解決壹系列重要的科技挑戰。HPCC是美國實施信息高速公路的壹個計劃。這項計劃的實施將耗資數百億美元。其主要目標是開發可擴展的計算系統和相關軟件,以支持以太網的傳輸性能,發展千兆位網絡技術,擴大研究和教育機構及網絡連接能力。
3、風暴
Storm是壹個免費的開源軟件,壹個分布式和容錯的實時計算系統。Storm可以非常可靠地處理巨大的數據流,可以用來處理Hadoop的批量數據。Storm很簡單,支持多種編程語言,使用起來非常有趣。
4、阿帕奇演習
為了幫助企業用戶找到更有效的方法來加速Hadoop數據查詢,Apache Software Foundation最近推出了壹個名為?鉆?開源項目。Apache Drill實現了Google的Dremel。
根據Hadoop制造商MapR Technologies的產品經理Tomer Shiran的說法,鉆?它已經作為Apache孵化器項目運行,並將繼續向全世界的軟件工程師推廣。
5、RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在很大程度上采用了先進的技術。它的數據挖掘任務涉及的範圍很廣,包括各種數據藝術,可以簡化數據挖掘過程的設計和評估。
6、Pentaho BI
Pentaho BI平臺不同於傳統BI產品。它是壹個以流程為中心、面向解決方案的框架。其目的是整合壹系列企業BI產品、開源軟件、API等組件,方便商業智能應用的開發。它的出現使得Jfree、Quartz等壹系列面向商業智能的獨立產品能夠被整合起來,形成壹個復雜完整的商業智能解決方案。