SparkR支持的机器学习算法:
spark.glm或glm:广义线性模型。
spark.survreg:加速失效时间(AFT)生存回归模型。
spark.naiveBayes:朴素Beyes模型。
spark.kmeans:K-均值聚类模型。
spark.logit:Logistic回归模型。
spark.isoreg:Isotonic回归模型。
spark.gaussianMixture:混合高斯模型。
spark.lda:Latent Dirichlet Allocation(LDA)模型。
spark.mlp:多层感知模型。
spark.gbt:梯度提升度模型。
spark.randomForest:随机森林模型 。
SparkR使用MLlib 训练模型。用户可以调用summary输出拟合模型,在新数据上做出预测,write.ml/read.ml用于存储/加载拟合模型。SparkR支持R公式,包括:‘~’, ‘.’, ‘:’, ‘+’和‘-’。