一、决策树

决策树,英文全称是:Decision Tree,其又称为判定树,是一种以树结构形式表达的预测分析模型。决策树的结构可以是二叉树,也可以是多叉树。

决策树由结点和有向边组成。结点有两种类型:内部结点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。

以一个简单的用于是否买电脑预测的决策树为例子:

dt.jpg

树中的内部节点代表一个属性,节点引出的分支表示这个属性的所有可能的值,叶节点表示最终的分类结果。从根节点到叶节点的每一条路径构建一条规则,并且这些规则具有 “互斥且完备” 的性质,即每一个样本均被且只有一条路径所覆盖。

综上所述,我们可以得知,决策树(decision tree)是一个树结构,可以是二叉树或非二叉树,也可以把它看作是 if-else 规则的集合,也可以认为是在特征空间上的条件概率分布。

二、决策树分类

决策树分为两大类:(1)分类树,对离散变量做决策树;(2)回归树,对连续变量做决策树。

三、决策树算法

决策树算法属于贪心算法。其最大的特点是:
(1)有监督的学习
(2)非参数学习算法
(3)自顶向下递归方式构造决策树
(4)在每一步选择中都采取在当前状态下最好最优的选择

决策树算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。

在决策树算法中,ID3基于信息增益作为属性选择的度量,C4.5基于信息增益比作为属性选择的度量,CART基于基尼指数作为属性选择的度量。

四、决策树生成过程

决策树的生成过程,分为三个步骤:

第一步:特征选择。
第二步:决策树生成。递归结构,对应于模型的局部最优。
第三步:决策树剪枝。缩小树结构规模,缓解过拟合,对应于模型的全局选择。

五、决策树优点

(1)速度快。因为计算量相对较小,且容易转化成分类规则。只要沿着树根向下一直走到叶子节点即可,沿途的分裂条件就能够唯一确定此种分类的规则。

(2)准确性高。挖掘出来的分类规则准确性高,便于理解,决策树可以清晰的显示哪些字段比较重要,即可以生成可以理解的规则。
(3)可以处理连续和种类字段
(4)不需要任何领域知识和参数假设
(5)适合高维数据

六、决策树缺点

(1)对于各类别样本数量不一致的数据,信息增益偏向于那些更多数值的特征
(2)容易过拟合
(3)忽略属性之间的相关性