使用reducing by key()時,先合並本地數據,再傳輸到不同的節點再合並,最後得到最終結果。
但是在使用groupByKey()時,並不進行局部合並,所有的數據都會在獲取完所有的數據後聚合成壹個序列。groupByKey()的傳輸速度明顯比reduceByKey()慢。
雖然groupByKey()。map(func)也可以實現reduceByKey(func)的功能,最好使用reduceByKey(func)。
測試結果: