关联规则的评价标准
关联规则的评价标准:在某些特定情况下,仅凭支持度和置信度来衡量一条规则,是完全不够的,对于数据的筛选力度也不足。因此,需要介绍更多的判断强关联规则的评价标准,来满足实际需求。支持度和置信度并不能过成功滤掉那些我们不感兴趣的规则,因此我们需要一些新的评价标准,下面介绍六中评价标准:相关性系数,卡方指数,全置信度、最大置信度、Kulc、cosine距离。1、相关性系数lift引入正相关和负相关的机制,对于不是正相关的商品规则,可以用相关性系数lift过滤掉。对于规则A->B或者B->A,lift(A,B)=P(A∩B)/(P(A)*P(B)),如果lift(A,B)>1表示A、B呈正相关,lift(A,B)<1表示A、B呈负相关,lift(A,B)=1表示A、B不相关(独立)。实际运用中,正相关和负相关都是我们需要关注的,而独立往往是我们不需要的,两个商品都没有相互影响也就是不是强规则,lift(A,B)等于1的情形也很少,一般只要接近于1,便认为是独立了。2、卡方系数卡方分布是数理统计中的一个重要分布,利用卡方系数我们可以确定两个变量是否相关。卡方系数的定义:3、全置信度all_confidence全置信度的定义如下:all_confidence(A,B)=P(A∩B)/max{P(A),P(B)}=min{P(B|A),P(A|B)}=min{confidence(A->B),confidence(B->A)}4、最大置信度max_confidence最大置信度则与全置信度相反,求的不是最小的支持度而是最大的支持度,max_confidence(A,B)=max{confidence(A->B),confidence(B->A)},不过感觉最大置信度不太实用。5、KulcKulc系数本质上是对两个置信度做一个平均处理,公式为:kulc(A,B)=(confidence(A->B)+confidence(B->A))/2。6、cosine距离cosine(A,B)=P(A∩B)/sqrt(P(A)*P(B))=sqrt(P(A|B)*P(B|A))=sqrt(confidence(A->B)*confidence(B->A))
作者:云创智学 来源:云创智学
发布时间:2022-03-11 10:19:49