• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

SparkDataFrames的概念和用法

作者:云创智学|发布时间:2022-01-06 11:32:43.0|来源:云创智学

SparkDataFrames的概念和用法

SparkR的核心是SparkDataFrames,是一个基于Spark的分布式数据框架。在概念上和关系型数据库中的表类似,或者和R语言中的数据框类似。

SparkDataFrame可以完成以下操作:

(1)数据缓存控制:cache(),persist(),unpersist();  

(2)数据保存:saveAsTextFile(),saveAsObjectFile();

(3)常用的数据转换操作:如map(),flatMap(),mapPartitions()等; 

(4)数据分组、聚合操作:如

   partitionBy(),groupByKey(),reduceByKey()等; 

(5)join操作:如join(),fullOuterJoin(),leftOuterJoin()等;  

(6)排序操作,如sortBy(),sortByKey(),top()等;

(7)Zip操作,如zip(),zipWithIndex(),zipWithUniqueId();  

(8)重分区操作,如coalesce(),repartition()。 


联系方式
企业微信