毕业论文决策树算法研究

3个回答默认排序

默认排序

按时间排序

我是飞儿

已采纳

关于决策树算法，我打算分两篇来讲，一篇讲思想原理，另一篇直接撸码来分析算法。本篇为原理篇。通过阅读这篇文章，你可以学到： 1、决策树的本质 2、决策树的构造过程 3、决策树的优化方向

决策树根据使用目的分为：分类树和回归树，其本质上是一样的。本文只讲分类树。

决策树，根据名字来解释就是，使用树型结构来模拟决策。用图形表示就是下面这样。

其中椭圆形代表：特征或属性。长方形代表：类别结果。面对一堆数据（含有特征和类别），决策树就是根据这些特征（椭圆形）来给数据归类（长方形）例如，信用贷款问题，我根据《神奇动物在哪里》的剧情给银行造了个决策树模型，如下图：

然而，决定是否贷款可以根据很多特征，然麻鸡银行选择了：（1）是否房产价值>100w；（2）是否有其他值钱的抵押物；（3）月收入>10k；（4）是否结婚；这四个特征，来决定是否给予贷款。先不管是否合理，但可以肯定的是，决策树做了特征选择工作，即选择出类别区分度高的特征。

由此可见，决策树其实是一种特征选择方法。（特征选择有多种，决策树属于嵌入型特征选择，以后或许会讲到，先给个图）即选择区分度高的特征子集。

那么，从特征选择角度来看决策树，决策树就是嵌入型特征选择技术

同时，决策树也是机器学习中经典分类器算法，通过决策路径，最终能确定实例属于哪一类别。那么，从分类器角度来看决策树，决策树就是树型结构的分类模型

从人工智能知识表示法角度来看，决策树类似于if-then的产生式表示法。那么，从知识表示角度来看决策树，决策树就是if-then规则的集合

由上面的例子可知，麻鸡银行通过决策树模型来决定给哪些人贷款，这样决定贷款的流程就是固定的，而不由人的主观情感来决定。那么，从使用者角度来看决策树，决策树就是规范流程的方法

最后我们再来看看决策树的本质是什么已经不重要了。决策树好像是一种思想，而通过应用在分类任务中从而成就了“决策树算法”。

下面内容还是继续讲解用于分类的“决策树算法”。

前面讲了决策树是一种特征选择技术。

既然决策树就是一种特征选择的方法，那么经典决策树算法其实就是使用了不同的特征选择方案。如：（1）ID3：使用信息增益作为特征选择（2）：使用信息增益率作为特征选择（3）CART：使用GINI系数作为特征选择具体选择的方法网上一大把，在这里我提供几个链接，不细讲。

但，不仅仅如此。决策树作为嵌入型特征选择技术结合了特征选择和分类算法，根据特征选择如何生成分类模型也是决策树的一部分。其生成过程基本如下：

根据这三个步骤，可以确定决策树由：（1）特征选择；（2）生成方法；（3）剪枝，组成。决策树中学习算法与特征选择的关系如下图所示：

原始特征集合T：就是包含收集到的原始数据所有的特征，例如：麻瓜银行收集到与是否具有偿还能力的所有特征，如：是否结婚、是否拥有100w的房产、是否拥有汽车、是否有小孩、月收入是否>10k等等。中间的虚线框就是特征选择过程，例如：ID3使用信息增益、使用信息增益率、CART使用GINI系数。其中评价指标（如：信息增益）就是对特征的要求，特征需要满足这种条件（一般是某个阈值），才能被选择，而这一选择过程嵌入在学习算法中，最终被选择的特征子集也归到学习算法中去。这就是抽象的决策树生成过程，不论哪种算法都是将这一抽象过程的具体化。其具体算法我将留在下一篇文章来讲解。

而决策树的剪枝，其实用得不是很多，因为很多情况下随机森林能解决决策树带来的过拟合问题，因此在这里也不讲了。

决策树的优化主要也是围绕决策树生成过程的三个步骤来进行优化的。树型结构，可想而知，算法效率决定于树的深度，优化这方面主要从特征选择方向上优化。提高分类性能是最重要的优化目标，其主要也是特征选择。面对过拟合问题，一般使用剪枝来优化，如：李国和基于决策树生成及剪枝的数据集优化及其应用。同时，决策树有很多不足，如：多值偏向、计算效率低下、对数据空缺较为敏感等，这方面的优化也有很多，大部分也是特征选择方向，如：陈沛玲使用粗糙集进行特征降维。由此，决策树的优化方向大多都是特征选择方向，像ID3、、CART都是基于特征选择进行优化。

参考文献统计学习方法-李航特征选择方法综述-李郅琴决策树分类算法优化研究_陈沛玲基于决策树生成及剪枝的数据集优化及其应用-李国和

198 评论 2小时前发布

Oo棉花糖小鱼o0

决策树基本上就是把我们以前的经验总结出来。我给你准备了一个打篮球的训练集。如果我们要出门打篮球，一般会根据“天气”、“温度”、“湿度”、“刮风”这几个条件来判断，最后得到结果：去打篮球？还是不去？上面这个图就是一棵典型的决策树。我们在做决策树的时候，会经历两个阶段：构造和剪枝。构造就是生成一棵完整的决策树。简单来说，构造的过程就是选择什么属性作为节点的过程，那么在构造过程中，会存在三种节点：根节点：就是树的最顶端，最开始的那个节点。在上图中，“天气”就是一个根节点；内部节点：就是树中间的那些节点，比如说“温度”、“湿度”、“刮风”；叶节点：就是树最底部的节点，也就是决策结果。剪枝就是给决策树瘦身，防止过拟合。分为“预剪枝”（Pre-Pruning）和“后剪枝”（Post-Pruning）。预剪枝是在决策树构造时就进行剪枝。方法是在构造的过程中对节点进行评估，如果对某个节点进行划分，在验证集中不能带来准确性的提升，那么对这个节点进行划分就没有意义，这时就会把当前节点作为叶节点，不对其进行划分。后剪枝就是在生成决策树之后再进行剪枝，通常会从决策树的叶节点开始，逐层向上对每个节点进行评估。如果剪掉这个节点子树，与保留该节点子树在分类准确性上差别不大，或者剪掉该节点子树，能在验证集中带来准确性的提升，那么就可以把该节点子树进行剪枝。 1是欠拟合，3是过拟合，都会导致分类错误。造成过拟合的原因之一就是因为训练集中样本量较小。如果决策树选择的属性过多，构造出来的决策树一定能够“完美”地把训练集中的样本分类，但是这样就会把训练集中一些数据的特点当成所有数据的特点，但这个特点不一定是全部数据的特点，这就使得这个决策树在真实的数据分类中出现错误，也就是模型的“泛化能力”差。 p(i|t) 代表了节点 t 为分类 i 的概率，其中 log2 为取以 2 为底的对数。这里我们不是来介绍公式的，而是说存在一种度量，它能帮我们反映出来这个信息的不确定度。当不确定性越大时，它所包含的信息量也就越大，信息熵也就越高。 ID3 算法计算的是信息增益，信息增益指的就是划分可以带来纯度的提高，信息熵的下降。它的计算公式，是父亲节点的信息熵减去所有子节点的信息熵。公式中 D 是父亲节点，Di 是子节点，Gain(D,a) 中的 a 作为 D 节点的属性选择。因为 ID3 在计算的时候，倾向于选择取值多的属性。为了避免这个问题，采用信息增益率的方式来选择属性。信息增益率 = 信息增益 / 属性熵，具体的计算公式这里省略。当属性有很多值的时候，相当于被划分成了许多份，虽然信息增益变大了，但是对于来说，属性熵也会变大，所以整体的信息增益率并不大。 ID3 构造决策树的时候，容易产生过拟合的情况。在中，会在决策树构造之后采用悲观剪枝（PEP），这样可以提升决策树的泛化能力。悲观剪枝是后剪枝技术中的一种，通过递归估算每个内部节点的分类错误率，比较剪枝前后这个节点的分类错误率来决定是否对其进行剪枝。这种剪枝方法不再需要一个单独的测试数据集。可以处理连续属性的情况，对连续的属性进行离散化的处理。比如打篮球存在的“湿度”属性，不按照“高、中”划分，而是按照湿度值进行计算，那么湿度取什么值都有可能。该怎么选择这个阈值呢，选择具有最高信息增益的划分所对应的阈值。针对数据集不完整的情况，也可以进行处理。暂无请你用下面的例子来模拟下决策树的流程，假设好苹果的数据如下，请用 ID3 算法来给出好苹果的决策树。「红」的信息增益为：1「大」的信息增益为：0 因此选择「红」的作为根节点，「大」没有用，剪枝。数据分析实战45讲.17 丨决策树（上）：要不要去打篮球？决策树来告诉你

322 评论 11小时前发布

lulubukema

目录一、决策树算法思想二、决策树学习本质三、总结一、决策树（decision tree）算法思想：决策树是一种基本的分类与回归方法。本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以看做是if-then的条件集合，也可以认为是定义在特征空间与类空间上的条件概率分布。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点，内部结点表示一个特征或属性，叶结点表示一个类。（椭圆表示内部结点，方块表示叶结点）决策树与if-then规则的关系决策树可以看做是多个if-then规则的集合。将决策树转换成if-then规则的过程是：由决策树的根结点到叶结点的每一条路径构建一条规则；路径上的内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。决策树的路径或其对应的if-then规则集合具有一个重要的性质：互斥且完备。这就是说，每一个实例都被一条路径或一条规则所覆盖，且只被一条路径或一条规则所覆盖。这里的覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。决策树与条件概率分布的关系决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元或区域，并在每个单元定义一个类的概率分布，就构成一个条件概率分布。决策树的一条路径对应于划分中的一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。决策树模型的优点决策树模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化原则建立决策树模型；预测时，对新的数据，利用决策树模型进行分类。二、决策树学习本质：决策树学习是从训练数据集中归纳一组分类规则、与训练数据集不相矛盾的决策树可能有多个，也可能一个没有。我们需要训练一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。从另一个角度看决策树学习是训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个。我们选择的条件概率模型应该是不仅对训练数据有很好的拟合，而且对未知数据有很好的预测。决策树的学习使用损失函数表示这一目标，通常的损失函数是正则化的极大似然函数。决策树的学习策略是以损失函数为目标函数的最小化。当损失函数确定后，决策树学习问题变为损失函数意义下选择最优决策树的问题。这一过程通常是一个递归选择最优特征，并根据特征对训练数据进行分割，使得对各个子数据集有一个最好分类的过程。这一过程对应着特征选择、决策树的生成、决策树的剪枝。特征选择：在于选择对训练数据具有分类能力的特征，这样可以提高决策树的学习效率。决策树的生成：根据不同特征作为根结点，划分不同子结点构成不同的决策树。决策树的选择：哪种特征作为根结点的决策树信息增益值最大，作为最终的决策树（最佳分类特征）。信息熵：在信息论与概率统计中，熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量，其概率分布为P(X= ) = ，i=1，2，3...n，则随机变量X的熵定义为 H(X) = — ，0 <= H(X) <= 1，熵越大，随机变量的不确定性就越大。条件熵（Y|X）：表示在已知随机变量X的条件下随机变量Y的不确定性。信息增益：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。信息增益 = 信息熵(父结点熵 ) — 条件熵（子结点加权熵）三、总结：优点 1、可解释性高，能处理非线性的数据，不需要做数据归一化，对数据分布没有偏好。 2、可用于特征工程，特征选择。 3、可转化为规则引擎。缺点 1、启发式生成，不是最优解。 2、容易过拟合。 3、微小的数据改变会改变整个数的形状。 4、对类别不平衡的数据不友好。

296 评论 11小时前发布

毕业论文决策树算法研究

3个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序