SparkDataFrames的概念和用法

作者：云创智学|发布时间：2022-01-06 11:32:43.0|来源：云创智学

SparkDataFrames的概念和用法：

SparkR的核心是SparkDataFrames，是一个基于Spark的分布式数据框架。在概念上和关系型数据库中的表类似，或者和R语言中的数据框类似。

SparkDataFrame可以完成以下操作：

(1)数据缓存控制：cache(),persist(),unpersist();

(2)数据保存：saveAsTextFile()，saveAsObjectFile();

(3)常用的数据转换操作:如map(),flatMap(),mapPartitions()等;

(4)数据分组、聚合操作:如

partitionBy(),groupByKey(),reduceByKey()等;

(5)join操作:如join(),fullOuterJoin(),leftOuterJoin()等;

(6)排序操作,如sortBy(),sortByKey(),top()等;

(7)Zip操作，如zip(),zipWithIndex(),zipWithUniqueId();

(8)重分区操作，如coalesce(),repartition()。

友情链接