传统决策树模型 id3算法基本步骤:
1:将训练集S分为1 ......N个类别。
2:计算S的总信息熵INFO(S),改值等于最终类别的各自信息量和概率质量函数的乘积,即每个类别所占训练集的比例乘以该比例的对数值取负,然后加和。
3:确定用来进行分类的属性向量V1,V2....Vn
4:计算每个属性向量对应的该属性向量对训练集的信息熵INFO(S)Vi,比如对应的属性Vi将训练集分为了M类,那么改值等于在该属性划分下的某一类值出现的概率乘以对应的该值所在的集的信息熵。改值所在的集的信息熵再套公式发现等于最终分类在Vi属性划分下的某一个类里的概率值乘以该概率值的对数值取负。表述的有些复杂,最好看公式。
5:在众多属性对于训练集的信息熵之中取最小的,这样信息增益最大。信息增益最大代表着分类越有效。
6:完成了一次属性的分裂,之后的递归。