C4.5算法是由Ross Quinlan开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。

C4.5决策树是ID3决策树的改进算法,它解决了ID3决策树无法处理连续型数据的问题以及ID3决策树在使用信息增益划分数据集的时候倾向于选择属性分支更多的属性的问题。它的大部分流程和ID3决策树是相同的或者相似的。

C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

ID3选择属性用的是子树的信息增益,而C4.5用的是信息增益比,具体的介绍见上节内容。

C4.5算法优点:

产生的分类规则易于理解,准确率较高。

C4.5算法缺点:

在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。