《统计学习方法》之决策树
发布网友
发布时间:2024-10-02 07:46
我来回答
共1个回答
热心网友
时间:2024-10-30 01:33
决策树(decision tree):这是一种基础分类与回归方法,其模型结构呈现树形。
主要优点:模型易于理解,分类效率高。
决策树学习包括三个步骤:特征选择、决策树的生成和决策树的修剪。
一、决策树模型
1.定义:决策树模型是一种以树形结构对实例进行分类的方法。
决策树由结点(node)和有向边(directed edge)组成;
结点的类型:内部结点和叶结点;内部节点代表一个特征或属性,叶子结点代表一个类别。
2.if-then规则
小结:决策树由if-then规则集合构成。
3.条件概率分布
决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。
以下是一个由15个样本组成的贷款申请训练数据的表格:
样本数据解读:
15个样本即有15个实例,每个实例(ID唯一)视为特征向量(输入实例),特征的个数为4,即n=4;
类标记为是否借贷,y=是或否;样本容量为ID个数,即为N=15。
4.决策树学习
二、特征选择
准则:信息增益或信息增益比
特征选择在于选取对训练数据具有分类能力的特征,从而提高决策树学习的效率。
特征的分类能力表现为:利用一个特征进行分类的结果与随机分类的结果没有很大差别,则这个特征时没有分类能力的。
1.信息增益
熵:表示随机变量不确定性的度量。
熵值越大,随机变量不确定性最大
条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性。
信息增益:表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
2.信息增益算法
3.根据信息增益准则,特征选择方法是:对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。
三、决策树的生成
1.ID3算法
核心是在决策树各个结点上应用信息增益准则选择特征,递归构建决策树。
具体方法是:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;再对子结点递归地调用以上方法构建决策树。直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。
2.C4.5的生成算法
对ID3算法进行了改进,在生成的过程中,用信息增益比来选择特征。
四、决策树的剪枝
决策树生成后会出现过拟合现象,即对训练数据分类很准确,但对未知数据的分类却没有那么准确。为解决这个问题,可以将已生成的树进行简化的过程称为剪枝。
3.剪枝算法
通过极小化决策树整体的损失函数
损失函数的公式:
损失函数极小化等价于正则化的极大似然估计,所以利用损失函数最小原则就是用正则化的极大似然估计进行模型选择。
4.CART算法
CART算法是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。
CART算法分两步:1.决策树生成:基于训练数据生成决策树;
2.决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。
5.CART生成
1.回归树生成
用平方误差来表示回归树对训练数据的预测误差;
2.分类树生成
分类树用基尼指数选择最优特征,同时决定该特征的最优二值切分点。
基尼指数表示集合D的不确定性,基尼指数值越大,样本集合的不确定性也就越大,这一点与熵相似。