SparkDataFrames的概念和用法:
SparkR的核心是SparkDataFrames,是一个基于Spark的分布式数据框架。在概念上和关系型数据库中的表类似,或者和R语言中的数据框类似。
SparkDataFrame可以完成以下操作:
(1)数据缓存控制:cache(),persist(),unpersist();
(2)数据保存:saveAsTextFile(),saveAsObjectFile();
(3)常用的数据转换操作:如map(),flatMap(),mapPartitions()等;
(4)数据分组、聚合操作:如
partitionBy(),groupByKey(),reduceByKey()等;
(5)join操作:如join(),fullOuterJoin(),leftOuterJoin()等;
(6)排序操作,如sortBy(),sortByKey(),top()等;
(7)Zip操作,如zip(),zipWithIndex(),zipWithUniqueId();
(8)重分区操作,如coalesce(),repartition()。