DataFrame是壹種表格數據類型,每列必須具有相同的值類型。
DataFrame稱為SchemaRDD。DataFrame使Spark能夠處理大規模結構化數據。在Spark中,DataFrame是基於RDD的分布式數據集,因此DataFrame可以完成RDD的大部分功能。在開發和使用時,您還可以調用方法將RDD和數據框架相互轉換。DataFrame的結構類似於傳統數據庫的二維表,它可以從許多數據源創建,如結構化文件、外部數據庫、Hive表等。