SparkDataFrames的概念和用法
SparkDataFrames的概念和用法:SparkR的核心是SparkDataFrames,是一个基于Spark的分布式数据框架。在概念上和关系型数据库中的表类似,或者和R语言中的数据框类似。SparkDataFrame可以完成以下操作:(1)数据缓存控制:cache(),persist(),unpersist();(2)数据保存:saveAsTextFile(),saveAsObjectFile();(3)常用的数据转换操作:如map(),flatMap(),mapPartitions()等;(4)数据分组、聚合操作:如partitionBy(),groupByKey(),reduceByKey()等;(5)join操作:如join(),fullOuterJoin(),leftOuterJoin()等;(6)排序操作,如sortBy(),sortByKey(),top()等;(7)Zip操作,如zip(),zipWithIndex(),zipWithUniqueId();(8)重分区操作,如coalesce(),repartition()。
作者:云创智学 来源:云创智学
发布时间:2022-01-06 11:32:43