spark上幾行讀取數據合並成壹行怎麽說，新手

#spark拼接RDD指定行數據，RDD合並為壹行，用python實現。

從pyspark導入SparkContext

sc = SparkContext（“本地”、“我的應用程序”）

rows = sc . parallelize（【【1，2，3】，【4，5，6】，【7，8，9】，【10，11，12】）

#獲取指定行的數據並返回RDD。

定義獲取數:

#全局行號叠代

全球計數器

#指定行號

全局行

計數器+= 1

if（counter = = row）:

返回s

計數器= 0

行= 3

#cache（）緩存數據

x 1 = rows . filter（getnum）。緩存（）

row= 4

x2 = rows . filter（getnum）。緩存（）

#生成包含兩個RDD中所有元素的RDD。

xx = x 1 . union（x2）

打印xx.collect（）

相关文章