关联规则的基本概念:
1、项(Item)、项集(Itemset)、k-项集与事务
项:是指数据库中不可分割的最小单位。
项集:是指多个项的集合,其中,空集是指不包含任何项的项集。
k-项集:是指由k个项构成的项集组合。
事务:是指用户定义的一个数据库操作序列,这些操作序列是一个不可分割的工作单位。
2、频繁项集(Frequent Itemset)
频繁项集:是指在所有训练元组中同时出现的次数,超过人工定义的阈值的项集。在关联规则的挖掘过程中,一般只保留候选项集中满足支持度条件的项集,不满足条件的舍弃。
3、极大频繁项集(Frequent Large Itemset)
极大频繁项集:不存在包含当前频繁项集的频繁超集,则当前频繁项集就是极大频繁项集。
4、支持度(Support)
支持度:是指项集在所有训练元组中同时出现的次数,因此,支持度可以表述为Support(X->Y) = |X U Y|/ |N|。其中,X,YN,X∩Y=Ф,|X U Y|表示集合X与Y在一个事务中同时出现的次数,|N|表示数据记录的总个数。
5、置信度(Confidence)
置信度可以表述为:Confidence (X->Y)= |X U Y|/ |X| = Support(X->Y) / Support(X),其中,X,YN,X∩Y=Ф,|X U Y|表示集合X与Y在一个事务中同时出现的次数,|X|表示X出现的总次数。