分类是一种重要的数据分析形式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或分类模型(分类器),目的是根据数据集的特点把未知类别的样本映射到给定类别中。数据分类过程主要包括两个步骤,即学习和分类。
1、第一步,建立一个模型,如下图:
2、第二步,使用模型进行分类,如下图:
分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。
分类的目的是从历史数据记录中自动推导出对给定数据的推广描述,从而学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。
为建立模型而被分析的数据元组形成训练数据集,由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,每一个训练样本都有一个预先定义的类别标记,由一个被称为类标签的属性确定。