随机森林 算法概念:
为了克服决策树容易过度拟合的缺点,随机森林算法(Random Forests , RF)在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度,对多元共线性不敏感,可以很好地预测多达几千个解释变量的作用,是当前最好的算法之一。
1、随机森林的定义
随机森林是一个由决策树分类器集合{h(x,k),k=1,2……}构成的组合分类器模型,其中参数集{k}是独立同分布的随机向量,x是输入向量。当给定输入向量时,每个决策树有一票投票权来选择最优分类结果。每个决策树是由分类回归树(CART)算法构建的未剪枝的决策树。
2、随机森林的基本思想
随机森林是通过自助法(Bootstrap)重复采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本以生成新的训练集样本集合,然后根据自助样本生成k决策树组成的随机森林。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖一个独立抽取的样本,森林中的每棵树具有相同的分布,分类误差取决于每棵树的分类能力和分类树之间的相关性。