某电商平台计划使用决策树为首页活动根据用户的兴趣偏好进行排序，将用户最可能感兴趣的活动优先进行展示。对于特征选择部分，为了改进决策树信息增益中的诸多缺陷，如泛化性较差以及对某一类别样本数量过于敏感等，计划使用信息增益比作为特征重要性的判别标准。计算某一特征的信息增益主要分为两步，第一步是计算数据集的信息熵，表示为：，第二步是计算每个特征的信息增益，特征 A 对于数据集 D 的经验条件熵可以表示为：其中代表的是属于某一类的样本个数，D 是整个数据集的样本数量，根据某一特征不同取值可以将数据划分为分为，其中，K 为类别的数目，某一特征的信息增益即为信息熵和经验条件熵的差。信息增益比表示为当前特征的信息增益与当前特征属性熵的比值，其中属性熵，代表的是属于某一特征的样本个数。

问答题

某电商平台计划使用决策树为首页活动根据用户的兴趣偏好进行排序，将用户最可能感兴趣的活动优先进行展示。对于特征选择部分，为了改进决策树信息增益中的诸多缺陷，如泛化性较差以及对某一类别样本数量过于敏感等，计划使用信息增益比作为特征重要性的判别标准。

计算某一特征的信息增益主要分为两步，第一步是计算数据集的信息熵，表示为：

$H(D)=-\sum_{k=1}^{K}{\frac{\left| C_{k} \right|}{\left| D \right|}}log_{2}{\frac{\left| C_{k} \right|}{\left| D \right|}}$ ，

第二步是计算每个特征的信息增益，特征 A 对于数据集 D 的经验条件熵可以表示为：

$H(D|A)=-\sum_{i=1}^{n}{\frac{\left| D_{i} \right|}{\left| D \right|}}\sum_{k=1}^{K}{}{\frac{\left| D_{ik} \right|}{\left| D_{i} \right|}}log_{2}\frac{\left| D_{ik} \right|}{\left| D_{i} \right|}$

其中 $C_{k}$ 代表的是属于某一类的样本个数，D 是整个数据集的样本数量，根据某一特征不同取值可以将数据划分为分为 $D_{1},D_{2}...D_{n}$ ，其中 $\sum_{i=1}^{n}{\left| D_{i} \right|}=\left| D \right|$ ，K 为类别的数目，某一特征的信息增益即为信息熵和经验条件熵的差。

信息增益比表示为当前特征的信息增益与当前特征属性熵的比值，其中属性熵 $H(IV)=-\sum_{k=1}^{K}{\frac{\left| D_{k} \right|}{\left| D \right|}}log_{2}{\frac{\left| D_{k} \right|}{\left| D \right|}}$ ， $D_{k}$ 代表的是属于某一特征的样本个数。

查看答案

上一题

[单选题] MySQL8中overtime_table结构如下， CREATE TABLE overtime_table ( &nbs...

下一题

[多选题] 假设你在在使用梯度下降法训练模型，你可以采用以下哪些技巧来加快收敛速度？

纠错

题目信息

校招真题

正确率

点击

收藏已收藏

错题本已加入错题本

我的笔记

登录添加笔记