• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

关联规则的评价标准

作者:云创智学|发布时间:2022-03-11 10:19:49.0|来源:云创智学

关联规则的评价标准

在某些特定情况下,仅凭支持度和置信度来衡量一条规则,是完全不够的,对于数据的筛选力度也不足。因此,需要介绍更多的判断强关联规则的评价标准,来满足实际需求。

支持度和置信度并不能过成功滤掉那些我们不感兴趣的规则,因此我们需要一些新的评价标准,下面介绍六中评价标准:相关性系数,卡方指数,全置信度、最大置信度、Kulc、cosine距离。


1、相关性系数lift

引入正相关和负相关的机制,对于不是正相关的商品规则,可以用相关性系数lift过滤掉。对于规则A->B或者B->A,lift(A,B)=P(A∩B)/(P(A)*P(B)),如果lift(A,B)>1表示A、B呈正相关,lift(A,B)<1表示A、B呈负相关,lift(A,B)=1表示A、B不相关(独立)。实际运用中,正相关和负相关都是我们需要关注的,而独立往往是我们不需要的,两个商品都没有相互影响也就是不是强规则,lift(A,B)等于1的情形也很少,一般只要接近于1,便认为是独立了。


2、卡方系数

卡方分布是数理统计中的一个重要分布,利用卡方系数我们可以确定两个变量是否相关。卡方系数的定义:


3、全置信度all_confidence

全置信度的定义如下:

all_confidence(A,B)=P(A∩B) / max{P(A),P(B)}=min{P(B|A),P(A|B)}

=min{confidence(A->B),confidence(B->A)}


4、最大置信度max_confidence

最大置信度则与全置信度相反,求的不是最小的支持度而是最大的支持度,max_confidence(A,B) = max{confidence(A->B),confidence(B->A)},不过感觉最大置信度不太实用。


5、Kulc

Kulc系数本质上是对两个置信度做一个平均处理,公式为:

kulc(A,B)=(confidence(A->B)+confidence(B->A))/2。


6、cosine距离

cosine(A,B)=P(A∩B)/sqrt(P(A)*P(B))=sqrt(P(A|B)*P(B|A))

= sqrt(confidence(A->B)*confidence(B->A))

联系方式
企业微信