撰写于    浏览:82 次  分类: 决策树
信息论最初所处理的问题是数据压缩与传输领域中的问题,其处理方法利用了熵和互信息等基本量,它们是通信过程的概率分布的函数。

撰写于    浏览:78 次  分类: 决策树
什么是数据呢?随机变量所构成的样本空间就是数据。对数据的理解,要上升到随机事件层面,这是机器学习所需要具备的基本素养。数据可以升华成特征,从而形成特征工程这个学科。数据可以升华成信息,从而形成了信息论。决策树的生成可以算是信息论的一个应用,但它虽然它只用到了信息论中一小部分的思想。数据包括了信息,既然我们关注的是信息量,我们就需要有一个度量方法:熵[...]

撰写于    浏览:285 次  分类: 决策树
一、决策树决策树,英文全称是:Decision Tree,其又称为判定树,是一种以树结构形式表达的预测分析模型。决策树的结构可以是二叉树,也可以是多叉树。决策树由结点和有向边组成。结点有两种类型:内部结点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。以一个简单的用于是否买电脑预测的决策树为例子:树中的内部节点代表一个属性,节点引出的分支表[...]