什么是信息熵、条件熵和信息增益

信息增益描述了一个特征带来的信息量的多少,往往用于特征选择

信息增益 = 信息熵 - 条件熵

一个特征往往会使一个随机变量Y的信息量减少,减少的部分就是信息增益

一个例子

如图所示,目标值是:playtennis,也就是是否打球

有四个特征:天气、温度、湿度、风

信息熵

信息熵的公式:

H(X)=−∑i=1np(xi)logp(xi)

以上图为例,设是否打球这一随机变量为Y,则

p(y=yes)=514

p(y=no)=914

所以H(Y)=−514∗log(514)−914∗log(914)=0.6518

条件熵

条件熵表示在条件X下Y的信息熵。公式如下:

H(Y|X)=∑x∈Xp(x)H(Y|X=x)

在上图的例子中,设humidity湿度为随机变量X

则,p(x=high)=7/14=1/2=p1

p(x=normal)=7/14=1/2=p2

所以,H(Y|X)=p1*H(Y|X=high)+p2*H(Y|X=normal)

而接下来就是计算H(Y|X=high)和H(Y|X=normal)

根据信息熵的计算方法可以得出:

H(Y|X=high)=-4/7*log(4/7)-3/7*log(3/7) = 0.6829

H(Y|X=normal)=-1/7*log(1/7)-6/7*log(6/7) = 0.4101

因此,条件熵为:1/2*0.6829+1/2*0.4101=0.5465

信息增益

信息增益 = 信息熵 - 条件熵=0.6518-0.5465=0.1053

也就是说,引入了湿度humidity这个变量之后,就使得是否打球这个变量的信息量就从0.6518减小到了0.5465

信息量是描述变量的不确定性的,值越大,就表示这个事件越不确定

因此,湿度这个变量的引进,使得这种不确定性降低了,有利于做决定

信息增益常用于决策树的构建,和特征选择

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 请听题:什么是熵?什么是交叉熵?什么是联合熵?什么是条件熵?什么是相对熵?它们的联系与区别是什么? 如果你感到回答...
    工程师milter阅读 12,081评论 5 57
  • 保留初心,砥砺前行 这一章节讲解的是关于信息的某些度量。 我们常常说信息很多,或者信息较少,但却很难说清楚信息到底...
    加勒比海鲜王阅读 1,325评论 2 15
  • 熵通常被认为描述一个系统或者分布的不确定性,熵越大,系统越混乱,不确定性越大。机器学习与数据挖掘的算法中大量的应用...
    sylvainwang阅读 4,475评论 0 50
  • 喜欢浪漫和奔放的人群基础一定是厚实的。根据现有定论,楚辞开浪漫之先风,所以不喜欢楚辞是有些武断了。 或许有很多的人...
    昏尘居士阅读 203评论 2 1
  • 一 秋来了,感觉离你也近了。 一色青,一色黄,岁月便在季节的更替里渐渐苍老了起来。 你曾说,若你老了,就拿出那些沾...
    言禾雨阅读 1,767评论 29 40