分类与预测 特征选择:
分类(Classification)和预测(Prediction)是预测问题的两种主要类型。分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型。预测可给定自变量对应的因变量的值。
特征选择的一般过程如图所示:
首先从原始特征集中根据一定的策略产生特征子集,对特征子集进行评估,得到相应的评估值,然后将评估值和设定的阈值比较,如果评估值低于阈值,则重新产生新的特征子集,进行下一轮迭代;如果评估值高于阈值,则停止迭代,并对最优特征子集进行验证。特征选择模型主要有两种:Filter模型和Wrapper模型。