從pyspark導入SparkContext
sc = SparkContext(“本地”、“我的應用程序”)
rows = sc . parallelize(【【1,2,3】,【4,5,6】,【7,8,9】,【10,11,12】)
#獲取指定行的數據並返回RDD。
定義獲取數:
#全局行號叠代
全球計數器
#指定行號
全局行
計數器+= 1
if(counter = = row):
返回s
計數器= 0
行= 3
#cache()緩存數據
x 1 = rows . filter(getnum)。緩存()
row= 4
x2 = rows . filter(getnum)。緩存()
#生成包含兩個RDD中所有元素的RDD。
xx = x 1 . union(x2)
打印xx.collect()