其中 代表的是属于某一类的样本个数,D 是整个数据集的样本数量,根据某一特征不同取值可以将数据划分为分为,其中,K 为类别的数目,某一特征的信息增益即为信息熵和经验条件熵的差。
信息增益比表示为当前特征的信息增益与当前特征属性熵的比值,其中属性熵 ,代表的是属于某一特征的样本个数。