数据挖掘常用算法概述:
在面对海量数据时,需要使用一定的算法,才能从中挖掘出有用的信息,下面介绍数据挖掘中常用的算法。
一. 分类算法
1、决策树算法
决策树算法是一种典型的分类算法,首先利用已知分类的数据构造决策树,然后利用测试数据集对决策树进行剪枝,每个决策树的叶子都是一种分类,最后利用形成的。
决策树对数据进行分类。决策树的典型算法有ID3,C4.5,CART等。
2、贝叶斯分类算法
贝叶斯分类算法是统计学的一种方法,其中朴素贝叶斯算法在许多情况下可以与决策树和神经网络算法相媲美,而且方法简单,准确度高,速度快。贝叶斯算法是基于贝叶斯定理的,而贝叶斯定理假设一个属性值对给定类的影响独立于其它属性值,但这种假设在很多情况下是不成立的,因此为了降低这个假设的影响,产生了很多改进算法,比如TAN (tree augmented Bayes network)算法。
3、支持向量机
支持向量机(Support Vector Machine,SVM)是建立在统计学理论的VC维理论和结构风险最小原理基础上的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机算法将在后面章节做详细介绍。
二. 聚类算法
聚类算法不同于分类算法,不会考虑类标号,这是因为在很多情况下,开始并不存在类标号。聚类算法可以根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组,这样就形成了对象的簇,同一个簇内的数据具有较高的相似性,不同簇之间的数据具有较低的相似性。常见的分类算法有K-MEANS算法、K-MEDOIDS算法等。
三. 关联规则
关联规则是形如X→Y的蕴涵式,X和Y分别称为关联规则的先导和后继。