當前位置:成語大全網 - 書法字典 - Spark rdd可以通過多種方式創建。

Spark rdd可以通過多種方式創建。

火花圍繞著RDD理念運轉。RDD是壹組可以並行操作的容錯元素。創建RDD有兩種方法:在驅動程序中並行化現有集合;從外部存儲系統引用數據集。RDD的特點之壹是分布式存儲。分布式存儲最大的優點是可以將數據並行存儲在不同的工作節點中,以便在需要時可以並行操作數據。彈性是指它在存儲節點時可以同時使用內部內存和外部內存,這為用戶處理大數據提供了方便。此外,RDD的另壹個特點是延遲計算,即壹個完整的RDD運行任務分為兩部分:轉換和行動。

1.轉換

變換被用來創造RDD。RDD只能通過變換來創建,它還提供了大量的操作方法,包括map、filter、groupBy、join等。RDD使用這些操作來生成新的RDD,但應該註意的是,無論進行多少次轉換,在RDD計算真實數據之前都不可能真正運行它。

2.行動

Action是數據執行部分,通過執行count、reduce、collect等方法真正執行數據的計算部分。事實上,RDD的所有操作都是以懶惰模式進行的。在編譯中運行時,不會立即計算最終結果,但會記住所有操作步驟和方法,並且只會執行顯示的啟動命令。這樣做的好處是,大部分前期工作已經在轉型期間完成,當Action起作用時,它只需要使用所有的自由來完成業務的核心工作。