當前位置:成語大全網 - 書法字典 - 如何開始使用大數據

如何開始使用大數據

首先需要了解Java語言和Linux操作系統,這是學習大數據的基礎,學習的順序不分先後。

大數據

Java:只要妳知道壹些基礎知識,妳就不需要很深的Java技術來做大數據。學習java SE相當於學習大數據。

Linux:因為大數據相關軟件運行在Linux上,所以必須牢固地學習Linux。學好Linux將對您快速掌握大數據相關技術有很大幫助,它將使您更好地了解hadoop、hive、hbase、spark等大數據軟件的運行環境和網絡環境配置。,這樣妳就可以少踩很多坑,學會理解腳本,這樣妳就可以更輕松地理解和配置大數據集群。它還允許您在未來更快地學習新的大數據技術。

Hadoop:這是壹個流行的大數據處理平臺,幾乎已經成為大數據的代名詞,所以這是必須的。Hadoop包括幾個組件:HDFS、MapReduce和YARN。HDFS是存儲數據的地方,就像我們電腦的硬盤壹樣。MapReduce處理和計算數據。它有壹個特點,只要給它時間,它就可以運行所有的數據,但時間可能不會很快,所以它被稱為數據批處理。

動物園管理員:這是靈丹妙藥。它將在安裝Hadoop的HA時使用,並且將在未來的Hbase中使用。壹般用來存儲壹些合作信息,比較小,壹般不超過1M。所有使用它的軟件都依賴於它。對於我們個人來說,我們只需要正確安裝它並讓它正常運行即可。

Mysql:我們已經學習完了大數據的處理,接下來我們將學習小數據的處理工具mysql數據庫,因為稍後安裝hive時會用到它。mysql需要掌握什麽水平?您可以在Linux上安裝它,運行它,配置簡單的權限,修改root的密碼,並創建壹個數據庫。這裏主要是學習SQL的語法,因為hive的語法與此非常相似。

Sqoop:用於將數據從Mysql導入Hadoop。當然,妳也可以將Mysql數據表直接導出到壹個文件中,並將其放在HDFS上,而無需此操作。當然,在生產環境中使用Mysql時,您應該註意它的壓力。

Hive:這個東西對於那些了解SQL語法的人來說是壹個神器。它可以使您輕松處理大數據,並且您不必費力編寫MapReduce程序。有人說是豬?幾乎和豬壹樣。掌握壹個就好。

現在妳已經學會了蜂巢,我相信妳需要這個東西。它可以幫助您管理您的Hive或MapReduce和Spark腳本,檢查您的程序是否正確執行,在出現問題時向您發出警報,幫助您重試程序,最重要的是,幫助您配置任務依賴性。我相信妳會喜歡它的,否則當妳看著那壹堆腳本和密密麻麻的crond時,妳會覺得自己像狗屎。

Hbase:這是Hadoop生態系統中的NOSQL數據庫。它的數據是以鍵和值的形式存儲的,並且鍵是唯壹的,因此可以用來復制數據。與MYSQL相比,它可以存儲更多的數據。因此,它通常用於大數據處理完成後的存儲目的地。

卡夫卡:這是壹個很好的排隊工具。排隊是為了什麽?排隊買票妳知道嗎?如果數據太多,還需要排隊處理,這樣其他和妳合作的同學就不會尖叫了。妳為什麽給我這麽多數據(例如,數百千兆字節的文件)?我該怎麽處理?不要因為他不會處理大數據而責怪他。妳可以告訴他,我把數據放在隊列中,妳在使用它們時壹個壹個地拿走它們,這樣他就不會對此抱怨並立即優化他的程序,因為不處理它是他的事情。不是妳問的問題。當然,我們也可以使用該工具將在線實時數據存入存儲器或HDFS。這時,您可以與壹個名為Flume的工具合作,該工具專門用於提供簡單的數據處理並將其寫入各種數據接收者(如Kafka)。

Spark:用於彌補基於MapReduce的數據處理速度的缺點。它的特點是將數據加載到內存中進行計算,而不是讀取慢得要死且進化特別慢的硬盤。特別適合叠代運算,所以算法流特別稀飯。它是用scala編寫的。Java語言或Scala都可以操作它,因為它們都使用JVM。