ID3 算法的数学原理

ID3树算法中是依赖信息增益G(D,A)=H(D)-H(D|A)来选择最佳的分类属性。具体的实例参照:第四节:信息增益的计算。链接为:http://www.treekit.cn/archives/11.html

ID3算法存在一定的缺陷

假设每个记录有一个属性“ID”,若按照ID来进行分割的话,由于ID是唯一的,因此在这一个属性上,能够取得的特征值等于样本的数目,也就是说ID的特征值很多。那么无论以哪个ID为划分,叶子结点的值只会有一个,纯度很大,得到的信息增益会很大,但这样划分出来的决策树是没意义的。由此可见,ID3决策树偏向于取值较多的属性进行分割,存在一定的偏好。为减小这一影响,有学者提出C4.5的分类算法。