决策树分类论文期刊

2个回答默认排序

默认排序

按时间排序

langlang0802

已采纳

此本来自自己硕士论文的综述部分。

偏最小二乘法可以分为偏最小二乘回归法（Partial least square regression, PLSR）与偏最小二乘法判别分析（Partial least square discriminate analysis, PLS-DA）。PLSR实现的主要思想是将自变量和因变量分别进行线性组合分析，再将求得的数据进行关联分析，所以其为主成分分析、典型相关性分析与多元线性回归建模的组合。PLS-DA是有监督的判别分析法，Gottfries等首先报道了PLS-DA使用，而后Barker与Rayens明确了其用于判别分析的理论基础，并且对于其应用的优缺点由Brereton与Lloyd进一步阐释（Gottfries et al 1995, Barker and Rayens 2003, Brereton and Lloyd 2014 ）。其与PLSR区别是因变量是类别，而不是连续的变量，一般是在PLSR分析后加入一个逻辑判别函数如Sigmoid函数（在逻辑回归判别中将详述）。因为两者前面分析部分相似，故这里主要介绍PLSR算法。PLSR中自变量与因变量的基础结构公式为：

X = TPT + E

Y = UQT + F

PLSR一般基于非线性迭代最小二乘算法（NIPALS）建立。其步骤为（1）对自变量X和因变量Y同时提取各自的主成分t1（x1、x2...xn的线性组合）与u1（y1、y2...yn的线性组合），并且要求这两个主成分相关性最大；（2）再进行X与Y分别对t1与u1的回归，若方程达到了设置的满意度，则停止计算；（3）否则，再利用t1对X解释后剩余的信息和u1对Y解释后剩余的信息重新按照（1）进行，再次循环，直到符合设定的阈值。最终X可能会提取到t1、t2...tn个主成分，Y提取到u1、u2…un，使Y的u组合对t1、t2...tn进行回归，进而转化成Y对x1、x2...xn的回归方程（Wold et al 2001）。

PLSR是基于FT-MIR建立模型研究中使用最为广泛和经典的算法，上述关于基于FT-MIR检测牛奶脂肪酸、蛋白质及氨基酸和抗生素残留的定量模型研究中均使用了PLSR算法，可见其应用之普遍。PLS-DA已在食品分析中的产品认证、医学诊断中的疾病分类和代谢组分析中进行广泛应用，并且Gromski等在综述代谢组的分析中，将其和随机森林与支持向量机进行了比较（Gromski et al 2015, Lee et al 2018）。

PLS的优点：（1）能处理样本量远小于特征属性数量的数据；（2）能处理特征属性间存在多重共线性的问题；（3）建立的模型时包含自变量与因变量的信息。其缺点有：（1）不能很好的处理非线性问题；（2）容易过拟合，需注意主成分数的选择。

主成分分析（Principal Component Analysis，PCA）是一种无监督的降维分析方法。PCA降维的基本原则是使降维后方差最大与损失最小，如图1-2。其实现的基本过程：（1）对所有样本进行中心化处理；（2）计算样本的协方差矩阵；（3）对协方差矩阵进行特征值分解；（4）对得到的特征值进行排序，取前n个组成新矩阵；（5）以新矩阵来代替原来样本的特征（Abdi and Williams 2010, Jolliffe and Cadima 2016）。

线性判别分析（Linear discriminat analysis，LDA）是一种有监督的降维与判别分析方法。LDA降维原则是类别内方差最小，类别间方差最大，这样的特点更有利于进行判别分析（Anandkumar et al 2015）。其实现的基本过程为（1）计算样本各类别内的类内散度矩阵Sw；（2）计算样本各类别间的散度矩阵Sb；（3）对Sw做奇异分解，得到Sw -1 ；（4）对Sw -1 Sb做特征分解；（5）取上一步得到的前n特征向量以最大似然法求得各类别的均值和方差做后续的判别分析。

LDA不适用自变量远远大于样本的情况，而PCA可以，故这里将两个算法进行联用，先以PCA进行降维，再以LDA进行判别分析（Yang and Yang 2003）。

PCA-LDA的优点：（1）两个算法的联用可以同时对原数据进行降维和判别分析；（2）LDA采用的是各类均值，算法较优。其缺点有（1）只适合符合高斯分布的样本数据分析；（2）可能会有过拟合的风险。

决策树是基础的分类和回归方法，本研究主要集中在其用于分类上。决策树是通过树状结构对具有特征属性的样本进行分类。每一个决策树都包括根节点（第一个特征属性），内部节点（其他特征属性）以及叶子节点（类别），通用的为每个内部节点有两个分支（Kaminski et al 2018）。其实现的基本步骤：（1）在所有属性中选择最优属性，通过其将样本分类；（2）将分类的样本再通过另一个特征属性再次分类，一直循环直到将样本分到各叶子节点；（3）对生成的树进行剪枝（包含预剪枝与后剪枝）。决策树选择特征属性的算法不同会有不同结果，典型算法包括：CART算法（Breiman et al 1984）、ID3算法（Quinlan 1986）、算法（Quinlan 1992）等，但这些方法生成的过程相似。

CART采用基尼指数最小化原则，进行特征选择，递归地生成二叉树，该算法只能对特征进行二分。ID3算法在各个节点上采用信息增益来选择特征，每一次选择的特征均使信息增益最大，逐步构建决策树，但缺点是其会选择取值较多的特征，而算法采用信息增益比选择特征，解决了ID3的缺点。

DT的优点：（1）运行速度相对较快；（2）可同时处理不同类型的数据，基本不需要预处理；（3）结果容易解释，并可进行可视化。其缺点：（1）容易过拟合，导致泛化能力不强；（2）不支持在线学习，若有新样本，DT需要全部重建；（3）当各类别数据样本不平衡时，结果会偏向有更多数值的特征；（4）不能处理样本特征属性之间的相关性（James et al 2013, Painsky and Rosset 2015）。

人工神经网络是以神经元为单位模仿生物神经网络的结构与功能的数学算法模型（Marcel and Sander 2018）。其可以进行线性与非线性的判别分析，属于有监督的学习分类法，主要分为前馈型神经网络、反馈型神经网络与自组织神经网络。

单位神经元如图1-3中A，一般有多个输入的“树突”，再分别给予不同的权重求和，与阈值比较，达到阈值的通过激活函数求出输出数据，最后进行输出。激活函数f通常分为三类：阈值函数、分段函数、双极性连续函数。

这里以经典的单隐层神经网络为例进行讲解，如图1-3中B。其输入层包含三个神经元，隐含层有四个神经元，输出层有两个神经元。其运算过程为由输入层输入数据，随机设定权重和阈值，通过隐藏层计算再传递到输出层，输出层会根据设定的期望进行判断，如果不符合，则返回重新改变权重和阈值，进入循环，直到符合设定的期望再停止运算，这样就能得到模型的权重和阈值，可对新数据进行判别，这种运算法即为常见的反馈型神经网络（Tu 1996）。多层神经网络属于深度学习，以卷积神经网络为基础进行构建。 ANN的优点：（1）能够自主学习；（2）能解决线性与非线性的问题；（3）可处理因变量之间的相互作用。其缺点：（1）需要设置大量的参数进行约束；（2）结果解释性差，为黑箱算法；（3）计算学习时间长；（4）容易过拟合（Tu 1996）。

329 评论 2小时前发布

A明天你好！

大数据分析工具详尽介绍&数据分析算法1、 HadoopHadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 ⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。2、 HPCCHPCC，High Performance Computing and Communications（高性能计算与通信）的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目：高性能计算与通信”的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。该项目主要由五部分组成：1、高性能计算机系统（HPCS），内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等；2、先进软件技术与算法（ASTA），内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等；3、国家科研与教育网格（NREN），内容有中接站及10亿位级传输的研究与开发；4、基本研究与人类资源（BRHR），内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动；5、信息基础结构技术和应用（IITA ），目的在于保证美国在先进信息技术开发方面的领先地位。3、 StormStorm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC（远过程调用协议，一种通过网络从远程计算机程序上请求服务）、 ETL（Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载）等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和操作。4、 Apache Drill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel.据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，“Drill”已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。该项目将会创建出开源版本的谷歌Dremel Hadoop工具（谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速）。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。“Drill”项目其实也是从谷歌的Dremel项目中获得灵感：该项目帮助谷歌实现海量数据集的分析处理，包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。5、 RapidMinerRapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。功能和特点免费提供数据挖掘技术和库100%用Java代码（可运行在操作系统）数据挖掘过程简单，强大和直观内部XML保证了标准化的格式来表示交换数据挖掘过程可以用简单脚本语言自动进行大规模进程多层次的数据视图，确保有效和透明的数据图形用户界面的互动原型命令行（批处理模式）自动大规模应用Java API（应用编程接口）简单的插件和推广机制强大的可视化引擎，许多尖端的高维数据的可视化建模400多个数据挖掘运营商支持耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。6、 Pentaho BIPentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案（Solution）的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。Pentaho BI 平台，Pentaho Open BI 套件的核心架构和基础，是以流程为中心的，因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。目前，Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行，主要以Pentaho SDK的形式进行。Pentaho SDK共包含五个部分：Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分，囊括了Pentaho平台源代码的主体；Pentaho数据库为 Pentaho平台的正常运行提供的数据服务，包括配置信息、Solution相关的信息等等，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的；可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行；Pentaho解决方案示例是一个Eclipse工程，用来演示如何为Pentaho平台开发相关的商业智能解决方案。Pentaho BI 平台构建于服务器，引擎和组件的基础之上。这些提供了系统的J2EE 服务器，安全，portal，工作流，规则引擎，图表，协作，内容管理，数据集成，分析和建模功能。这些组件的大部分是基于标准的，可使用其他产品替换之。7、 SAS Enterprise Miner§ 支持整个数据挖掘过程的完备工具集§ 易用的图形界面,适合不同类型的用户快速建模§ 强大的模型管理和评估功能§ 快速便捷的模型发布机制, 促进业务闭环形成数据分析算法大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等，而监督学习又包括分类学习、回归学习、排序学习、匹配学习等（见图1）。分类是最常见的机器学习应用问题，比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等，本质上都是分类问题。分类学习也是机器学习领域，研究最彻底、使用最广泛的一个分支。最近、Fernández-Delgado等人在JMLR（Journal of Machine Learning Research，机器学习顶级期刊）杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法（分类学习算法）在UCI 121个数据集上进行了“大比武”（UCI是机器学习公用数据集，每个数据集的规模都不大）。结果发现Random Forest（随机森林）和SVM（支持向量机）名列第一、第二名，但两者差异不大。在的数据上、Random Forest压倒了其它90%的方法。也就是说，在大多数情况下，只用Random Forest 或 SVM事情就搞定了。KNNK最近邻算法。给定一些已经训练好的数据，输入一个新的测试数据点，计算包含于此测试数据点的最近的点的分类情况，哪个分类的类型占多数，则此测试点的分类与此相同，所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点，远的点自然就小点。详细介绍链接Naive Bayes朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法，用到了一个比较重要的贝叶斯定理，用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。SVM支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法，非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接AprioriApriori算法是关联规则挖掘算法，通过连接和剪枝运算挖掘出频繁项集，然后根据频繁项集得到关联规则，关联规则的导出需要满足最小置信度的要求。详细介绍链接PageRank网页重要性/排名算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准，如果1个网页内部包含了多个指向外部的链接，则PR值将会被均分，PageRank算法也会遭到LinkSpan攻击。详细介绍链接RandomForest随机森林算法。算法思想是决策树+boosting.决策树采用的是CART分类回归数,通过组合各个决策树的弱分类器,构成一个最终的强分类器,在构造决策树的时候采取随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过分拟合的现象发生。详细介绍链接Artificial Neural Network“神经网络”这个词实际是来自于生物学，而我们所指的神经网络正确的名称应该是“人工神经网络（ANNs）”。人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重值，以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的系统，可以发展知识，以致超过设计者原有的知识水平。通常，它的学习训练方式可分为两种，一种是有监督或称有导师的学习，这时利用给定的样本标准进行分类或模仿；另一种是无监督学习或称无为导师学习，这时，只规定学习方式或某些规则，则具体的学习内容随系统所处环境（即输入信号情况）而异，系统可以自动发现环境特征和规律性，具有更近似人脑的功能。

91 评论 11小时前发布

决策树分类论文期刊

2个回答 默认排序 默认排序 按时间排序

相关问答

职称论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序