数据挖掘方法入门——关联分析

1.什么是关联分析?

自然界中,某件事情发生时,其他事件也会发生,这种联系称为关联。关联分析就是为了寻找事物之间的一些有趣的关联关系。

最让人熟知的就是购物篮分析,商场在分析用户经常同时购买“啤酒、尿布“、“篮球”、“篮球服”等商品组合,于是将其放在一起以促进销售。这种关联关系的分析,不仅应用与网站设计者可以根据访客日志数据,发现访客浏览习惯和网站页面间的关系。

2.如何评价关联规则是否有用?

拿某个商场的交易数据中进行分析,数据集中有限的项目经过排列组合以后可以产生大量的关联规则,但是,只有一小部分的规则会是用户感兴趣的,因此需要引入一个“兴趣度”的概念帮助用户评估得到的关联规则。

而与兴趣度评估相关的度量包括:简洁性、正确性、实用性、新颖性

1)简洁性:太复杂的规则会让用户的兴趣度降低,也难以解释和理解

2)正确性:令人信服的程度有多高。

正确性的判断指标是置信度,表示这个规则正确的概率有多大。即在某一项x出现的前提下,另外一项y出现的频率是多少。

置信度confident(x=>y)=p(y|x)

3)实用性:判断该规则再次出现的可能性有多大,即这个指标的覆盖率。

实用性的判断指标是支持度,支持度越大说明规则应用越广泛,即xy同时出现的频率.

支持度support(x=>y)= p(x U y)

4)新颖性:判断规则是否已经被导出的另外一个规则作蕴含。

在这4个指标中,置信度和实用性是用来评判一条规则是强关联规则的依据。

强关联规则:同时满足用户定义的最小支持度阈值和最小置信度阈值的关联规则

弱关联规则:不满足最小支持度阈值和最小置信度阈值的关联规则

5)改善度:

期望可信度是在x没有影响的作用下y出现的频率,p(i)

改善度则是评估x的出现对y的出现的影响性。p(y|x)/p(x)越大,则改善度越高,说明x的出现对y的可能影响就越大。

3.关联规则的分类

1)布尔规则和量化规则

(1)布尔规则:性别=女=》职业=老师

(2)量化规则:性别=女=》平均收入=2300

量化关联规则可以直接对原始数据进行处理,或先对数值型属性进行分区间进行动态分割

2)单层规则和多层关联规则

在单层规则中,所有的项不考虑现实数据的多层性,而在实际应用中,涉及不同的抽象层发现的多层关联规则则是一种更有用的关联规则,因为属性之间存在一种层次关系。

(1)不涉及不同抽象层的项的规则称为单层关联规则

adidas篮球=》nike篮球服

(2)较高层次和较低层次之间规则称为多层关联规则

adidas篮球=》篮球服

3)单维规则和多维规则

(1)单维关联规则:处理同一个属性或维度内的联系。

adidas篮球=》nike篮球服

(2)多维关联规则:多个属性或维度之间的联系。

用户的年龄和购买物品

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容