环境搭建:
1. Linux下安装R
首先在官网下载R的软件包,官网网址为 http://cran.rstudio.com/
2. rJava包安装
SparkR包对rJava包有依赖关系,因此,在安装SparkR之前,需要先完成rJava包的安装
3. SparkR的安装
为了避免Spark版本的兼容问题,采用源码编译的方式来安装SparkR
SparkR 使用方法:
创建SparkSession:SparkSession(即Spark会话)是SparkR的切入点,它使得R程序和Spark集群相互通信。
创建SparkDataFrmes:根据需要从本地R数据框(R data frame),Hive表(Hive table)或者从其他数据源创建SparkDataFrmes