什么是数据呢?随机变量所构成的样本空间就是数据。对数据的理解,要上升到随机事件层面,这是机器学习所需要具备的基本素养。

数据可以升华成特征,从而形成特征工程这个学科。

数据可以升华成信息,从而形成了信息论。决策树的生成可以算是信息论的一个应用,但它虽然它只用到了信息论中一小部分的思想。

数据包括了信息,既然我们关注的是信息量,我们就需要有一个度量方法:熵,决策树生成算法背后的思想正是利用该度量方法来衡量一种数据划分的优劣,从而生成一个判定序列。具体而言,它会不断地寻找数据的划分方法,使得在该划分下能够获得的信息量最大。