• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

SparkR下载安装配置教程

作者:云创智学|发布时间:2022-01-06 11:31:05.0|来源:云创智学

spark下载安装配置教程

此安装步骤是Spark跑在Hadoop Yarn架构上的安装方式,如果是跑在独立的Spark环境上,请参照SparkR官网

(https://github.com/amplab-extras/ SparkR-pkg)。


1、安装依赖包:

install.packages("rJava") 

yum install libcurl 

yum install libcurl-devel install.packages("RCurl")

install.packages("devtools")  

服务器需要安装maven服务(参照:

http://blog.csdn.net/zdnlp/article/details/7457596


2、安装SparkR包 

library(devtools) 

install_github("amplab-extras/SparkR-pkg", subdir="pkg")  

USE_YARN=1 SPARK_YARN_VERSION=2.4.0 SPARK_HADOOP_VERSION=2.4.0 USE_MAVEN=1./install-dev.sh


3、Linux下加载R包

install.packages('Cairo', dependencies=TRUE,repos='http://cran. rstudio.com/')


在R或Rstudio中调用SparkR:

library(SparkR)  

sc<-sparkR.init(master="local","RwordCount")  

lines<- textFile(sc,"hdfs://XXXIP):8020/test/log.txt") 

words <-flatMap(lines,function(line)

   {strsplit(line,",")[[1]]}

   ) 

count(words)

联系方式
企业微信