问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

《统计学习方法》之决策树

发布网友 发布时间:2024-10-02 07:46

我来回答

1个回答

热心网友 时间:2024-10-30 01:33

决策树(decision tree):这是一种基础分类与回归方法,其模型结构呈现树形。

主要优点:模型易于理解,分类效率高。

决策树学习包括三个步骤:特征选择、决策树的生成和决策树的修剪。

一、决策树模型

1.定义:决策树模型是一种以树形结构对实例进行分类的方法。

决策树由结点(node)和有向边(directed edge)组成;

结点的类型:内部结点和叶结点;内部节点代表一个特征或属性,叶子结点代表一个类别。

2.if-then规则

小结:决策树由if-then规则集合构成。

3.条件概率分布

决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。

以下是一个由15个样本组成的贷款申请训练数据的表格:

样本数据解读:

15个样本即有15个实例,每个实例(ID唯一)视为特征向量(输入实例),特征的个数为4,即n=4;

类标记为是否借贷,y=是或否;样本容量为ID个数,即为N=15。

4.决策树学习

二、特征选择

准则:信息增益或信息增益比

特征选择在于选取对训练数据具有分类能力的特征,从而提高决策树学习的效率。

特征的分类能力表现为:利用一个特征进行分类的结果与随机分类的结果没有很大差别,则这个特征时没有分类能力的。

1.信息增益

熵:表示随机变量不确定性的度量。

熵值越大,随机变量不确定性最大

条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性。

信息增益:表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

2.信息增益算法

3.根据信息增益准则,特征选择方法是:对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。

三、决策树的生成

1.ID3算法

核心是在决策树各个结点上应用信息增益准则选择特征,递归构建决策树。

具体方法是:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;再对子结点递归地调用以上方法构建决策树。直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。

2.C4.5的生成算法

对ID3算法进行了改进,在生成的过程中,用信息增益比来选择特征。

四、决策树的剪枝

决策树生成后会出现过拟合现象,即对训练数据分类很准确,但对未知数据的分类却没有那么准确。为解决这个问题,可以将已生成的树进行简化的过程称为剪枝。

3.剪枝算法

通过极小化决策树整体的损失函数

损失函数的公式:

损失函数极小化等价于正则化的极大似然估计,所以利用损失函数最小原则就是用正则化的极大似然估计进行模型选择。

4.CART算法

CART算法是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。

CART算法分两步:1.决策树生成:基于训练数据生成决策树;

2.决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。

5.CART生成

1.回归树生成

用平方误差来表示回归树对训练数据的预测误差;

2.分类树生成

分类树用基尼指数选择最优特征,同时决定该特征的最优二值切分点。

基尼指数表示集合D的不确定性,基尼指数值越大,样本集合的不确定性也就越大,这一点与熵相似。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
怎么设置我想要的铃声为闹钟呢? 定时机器人功能列表 ...暗黑破坏神2重制版好玩吗_暗黑破坏神2重制版怎么玩 怎么用ATMA导入装备? 我下载的暗黑存档是rar文件,怎么办 知学云(北京)科技股份有限公司电话是多少? 仓央嘉措有哪些描写心情的诗? 沙面街道现状 龙之谷2手游学者课堂怎么玩 龙之谷2学者课堂答案是什么_学者课堂答案大全 食品杀菌的方式有哪些? 食品消毒杀菌的误区 国民教育全日制本科是什么意思? 华为新专利:手机背部采用何种“十字”形摄像头模组? 我是学生 在台球厅打台球 透露真实姓名办理会员卡会出现问题吗_百度知 ... 台球厅的会员卡应不应该规定零点后限制使用? 苹果控制中心怎么添加或者关闭? 小水季节是几月几号 商业健康保险费由谁承担? 市面上有哪些简约优雅又很明亮清新的春装值得入手? 市面上有哪些青春又充满洋气感的春装值得推荐? 市面上有哪些吸睛洋气又好看的春装值得选择? 春季有哪些上身效果清新亮眼的服饰值得推荐? 市面上有哪些美观洋气又实用的春装值得推荐? 市面上有哪些清新而又干净的春装值得入手? 市面上有哪些时尚与清爽气息突出的春装值得选择? 称自己的儿子为犬子,是什么意思? 菊花茶的功效与作用及禁忌事项 菊花茶的功效与饮用禁忌哪7类人不可以喝菊花茶 国产手机芯片都有哪些品牌和型号? 【Kay】随机森林-特征选择 ...资本主义工业为什么有利于社会的进步?反对帝国主义的表现有哪些? 机器学习中的正则化方法有哪些? 机器学习利器——决策树和随机森林 【模型篇】随机森林模型(Random Forest) 刘备手下姓徐的大将都有谁? 三国演义江东姓徐的名将 四大名著中姓徐的 判断:梯形的上底和下底越长,面积越大。 梯形的上底,下底越长,其面积越大,对吗?求学霸请假。 梯形的周长一定,它的上底、下底越长,面积越大。这句话对么?求解!!! 清洗喷油嘴和清洗发动机不一样吗 喷油嘴是否需要定期清洗? 两岁宝宝耳屎清理的方法 江苏二级建造师好考吗 内地剧、港台剧、泰剧、欧美剧、日韩剧你现在更喜欢哪个?为什么... ...的比较好看的电视剧,韩剧日剧台剧港剧美剧都行,不要太狗血的剧情,少... 什么算肥胖 大家认为韩剧、台剧、日剧哪一种最好看啊? 痘印的淡化过程是什么