词条 | 信息增益 |
释义 | 信息增益(Kullback–Leibler divergence)又称information divergence,information gain,relative entropy 或者KLIC。 在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。 尽管信息增益通常被直观地作为是一种度量或距离,但事实上信息增益并不是。就比如信息增益不是对称的,从P到Q的信息增益通常不等于从Q到P的信息增益。信息增益是f增益(f-divergences)的一种特殊情况。在1951年由Solomon Kullback 和Richard Leibler首先提出作为两个分布的直接增益(directed divergence)。它与微积分中的增益不同,但可以从Bregman增益(Bregman divergence)推导得到。 定义设离散随机变量的概率分布P和Q,它们的信息增益定义为 其中分布P和Q必须是概率分布,而且对于任何P(i)>0,必须有Q(i)>0。当P(i)=0时,公式的值为0。从公式看,信息增益是以分布P为权重的P和Q对数差值的加权平均。 信息增益的连续分布形式: 其中p和q表示P和Q的密度概率函数 更一般地,P和Q是集合X上的概率测度,Q关于P绝对连续,从P到Q的信息增益定义为 假设右式存在,dQ/dp是Q关于P的Radon-Nikodym导数, 如果P关于Q也绝对连续,那么上式可变为 上式可视为P关于Q的熵。如果u是集合X上的任何测度,即有p=dP/du和q=dQ/du存在,那么从P到Q的信息增益可定义为 当信息以比特为单位时,公式中的对数的基数为2。当信息以nats为单位时,基数为e。大多数包括信息增益公式的公式都使对数函数保持原样,即与基数无关。 注意,信息增益是要讲方向的,上述公式都是计算从P到Q的信息增益。 特征选择在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,其实就是熵。 假如有变量X,其可能的取值有n种,每一种取到的概率为Pi,那么X的熵就定义为 也就是说X可能的变化越多,X所携带的信息量越大,熵也就越大。对于文本分类或聚类而言,就是说文档属于哪个类别的变化越多,类别的信息量就越大。所以特征T给聚类C或分类C带来的信息增益为IG(T)=H(C)-H(C|T)。 H(C|T)包含两种情况:一种是特征T出现,标记为t,一种是特征T不出现,标记为t'。所以 H(C|T)=P(t)H(C|t)+P(t')H(C|t),再由熵的计算公式便可推得特征与类别的信息增益公式。 信息增益最大的问题在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。 其它概率距离度量方法包括直方图相交(historgram intersection),开方统计(Chi-squared statistic),quadratic form distance,赛程(match distance),Kolomogorov-Smirnov distance和earth mover's distance |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。