spark下载安装配置教程:
此安装步骤是Spark跑在Hadoop Yarn架构上的安装方式,如果是跑在独立的Spark环境上,请参照SparkR官网
(https://github.com/amplab-extras/ SparkR-pkg)。
1、安装依赖包:
install.packages("rJava")
yum install libcurl
yum install libcurl-devel install.packages("RCurl")
install.packages("devtools")
服务器需要安装maven服务(参照:
http://blog.csdn.net/zdnlp/article/details/7457596
2、安装SparkR包
library(devtools)
install_github("amplab-extras/SparkR-pkg", subdir="pkg")
USE_YARN=1 SPARK_YARN_VERSION=2.4.0 SPARK_HADOOP_VERSION=2.4.0 USE_MAVEN=1./install-dev.sh
3、Linux下加载R包
install.packages('Cairo', dependencies=TRUE,repos='http://cran. rstudio.com/')
在R或Rstudio中调用SparkR:
library(SparkR)
sc<-sparkR.init(master="local","RwordCount")
lines<- textFile(sc,"hdfs://XXXIP):8020/test/log.txt")
words <-flatMap(lines,function(line)
{strsplit(line,",")[[1]]}
)
count(words)