當前位置:成語大全網 - 書法字典 - 大數據開發常用的編程語言有哪些?

大數據開發常用的編程語言有哪些?

1,Python語言

如果您的數據科學家不使用R,他們可能會徹底了解Python。十多年來,Python在學術界非常流行,尤其是在自然語言處理(NLP)等領域。因此,如果您有壹個需要NLP處理的項目,您將面臨令人眼花繚亂的選擇,包括經典的NTLK、使用GenSim的主題建模或超級快速和準確的spaCy。同樣,在涉及神經網絡時,Python也同樣遊刃有余,包括Theano和Tensorflow;然後是用於機器學習的scikit-learn,以及用於數據分析的NumPy和Pandas。

還有Juypter/Ipython,這是壹個基於web的筆記本服務器框架,允許您以自己喜歡的日誌格式混合代碼、圖形和幾乎任何對象。這壹直是Python的殺手級功能之壹,但今年,這個概念被證明非常有用,幾乎所有遵循讀取-讀取-輸出-循環(REPL)概念的語言中都出現了它,包括Scala和r

Python通常在大數據處理的框架中得到支持,但與此同時,它通常不是“壹等公民”。例如,Spark中的新功能幾乎總是出現在Scala/Java綁定的頂部,可能有必要為PySpark中的那些更新版本編寫幾個次要版本(尤其是針對Spark流/MLLib開發工具)。

與R相反,Python是壹種傳統的面向對象語言,因此大多數開發人員使用它會相當舒適,而第壹次接觸R或Scala會令人望而生畏。壹個小問題是妳需要在代碼中留出適當的空白。這將人們分為兩個陣營。壹派認為“這非常有助於確保可讀性”,另壹派認為我們不應該僅僅因為壹行代碼中的壹個字符不在正確的位置就強迫解釋器讓程序運行。

2.r語言

在過去的幾年中,R語言已經成為數據科學的寵兒-數據科學現在不僅為書蟲統計學家所熟知,也為華爾街交易員、生物學家和矽谷開發人員所熟知。各行各業的公司,如谷歌、臉書、美國銀行和紐約時報,都使用R語言,並且R語言正在商業應用中不斷推廣。

r語言具有簡單而明顯的吸引力。使用R語言,您可以過濾復雜的數據集,通過高級建模函數處理數據,並創建平面圖來表示數字,只需幾行代碼。它被比作壹個極其活躍的Excel版本。

R語言最大的資本是圍繞它開發的動態生態系統:R語言社區不斷向其已經豐富的功能集添加新的軟件包和功能。據估計,有超過200萬人使用R語言,最近的壹項民意調查顯示,R語言是迄今為止科學數據中最受歡迎的語言,有665,438+0%的受訪者使用R語言(其次是Python,39%)。

3、JAVA

人們發現,Java以及基於Java的框架是矽谷最大的高科技公司的骨架。“如果妳看看Twitter、LinkedIn和臉書,妳會發現Java是他們所有數據工程基礎設施的基本語言,”Driscoll說。

Java無法提供與Python相同質量的可視化,並且它不是統計建模的最佳選擇。然而,如果您轉向過去的原型設計並需要構建壹個大型系統,那麽Java通常是您的最佳選擇。

4.Hadoop和Hive

為了滿足數據處理的巨大需求,開發了壹組基於Java的工具。Hadoop作為批量處理數據的首選基於Java的框架,點燃了每個人的熱情。Hadoop比其他壹些處理工具慢,但它的準確性驚人,因此被廣泛用於後端分析。它與Hive配合得很好,Hive是壹個基於查詢的框架,運行在頂層。