SparkR实现的主要机器学习算法概述:
广义线性模型
广义线性模型:简单最小二乘回归(OLS)的扩展,响应变量可以是正整数或分类数据,为某指数分布族,期望值函数与预测变量之间为线性关系,需要指定分布类型和连接函数。
加速失效时间生存回归模型:AFT模型将经典线性回归模型的建模方法直接拓展到了生存分析领域,即具有截尾生存时间的情形。
朴素贝叶斯模型:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,选择具有最大后验概率的类作为该对象所属的类。
K-means模型:SparkR提供了对K-means算法的支持,K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标。
模型的保存与加载:模型训练好了以后,需要将训练好的模型保存起来,以便下一次再用。