• 回答数

    4

  • 浏览数

    161

king独秀
首页 > 学术论文 > bagging论文范文

4个回答 默认排序
  • 默认排序
  • 按时间排序

78952146984里

已采纳

“不确定” 这个词儿,三脚猫专家到处滥用,在人工智能安全(AI safety)、风险管理、投资组合优化、科学计量、保险等领域尤甚。试摘录几则,常见于日常交流之间:

在数学上, 不确定性 反应了随机变量的 离散程度 。换句话说,不确定性是一个具体的数值,反应某个随机变量有多么“随机”。在金融领域,不确定性还有个名字,叫 风险 。

说来奇怪,至今没有公式来表示不确定性。现存度量离散程度的方法有多种:标准差、方差、风险值(value-at-risk,VaR)、熵。不过,对于以上方法算来的数值,却不尽然反应“随机性”,这是因为随机性涉及整个随机变量的全部。

尽管如此,为了优化和比较,将随机性降低到单个数字表示是必要的。 划重点, “不确定性更大”,通常等同于“更糟糕” (增强学习的某些实验除外)。

统计机器学习关注模型的参数估计 ,进而估计未知的随机变量 。多种形式的不确定性在这里发挥作用,其中一些描述了预期的内在随机性(例如硬币翻转的结果),其他一些则来源于对模型参数的信心程度。

为了使上述理论更具体,让我们考虑一个递归神经网络(RNN),它从一系列地表的气压计读数中预测当天的降雨量。 气压计测量大气压力,即将下雨时通常气压会下降。 下图总结了降雨预测模型里,不同类型不确定性的图表。

内在不确定性中,aleatory的拉丁文词源是 aleatorius ,本意是用来当骰子玩的 羊距骨 ,引申义为蕴含随机性的过程。内在不确定性描述了数据生成过程本身的随机性。哪怕采样再多的数据,也无法消除这一随机性。 正如抛掷硬币,在落地之前无法知道其结果。

我们用降雨预测做类比,气压表的不精确带来了内在不确定性。除此之外,还有一些重要的变量在数据收集设置里没有观察到:昨天有多少降雨量? 我们是在测量当前的气压,还是最后一次冰期时的气压?这些未知变量是我们数据收集装置所固有的,因此从该系统收集更多数据,并不能免除这种不确定性。

内在的不确定性将会从输入,一直延续到模型的预测结果。考虑一个简单的模型 ,输入采用正态分布式 。这时 。因此,预测分布的内在不确定性可以用来描述 。当然,在输入数据 的随机机制不清楚时,预测内在不确定性会更难。

有人可能会认为,由于内在不确定性是不可减少的,因而对此也做不了什么,所以应该忽略它。 事实上并不是!训练模型时须注意选择那些能够正确表示内在不确定性的输出表示。 标准LSTM不会产生概率分布,因此尝试学习硬币翻转的结果只会收敛到均值。 相反,用于语言生成的模型产生了一系列分类分布的随机概率(单词或字符),可以用在句子补全任务中,捕获模型的内在不确定性。

“好的模型总是相似的;坏的模型各有各的错法。”

认知不确定性中,Epistemic源于希腊词根epistēmē,意思是 有关知识的知识 。 它衡量的是,由于我们对正确模型参数的未知,而带来的对正确预测的未知程度。

下图是某些一维数据上高斯过程回归的模型图。 置信区间(蓝色)反映了认知不确定性。对于训练数据(红点),不确定性为零。随着我们离训练点越来越远,预测分布将分配到更高的标准差。 与内在不确定性不同,我们可以通过在缺乏知识的输入区域收集更多数据,来“消除”模型的认知不确定性。

如果想要在模型选择上注入更大的灵活性,一个好主意就是使用模型集成(ensemble),即合理利用“多个独立学习模型结果”的一种巧妙方式。类似于高斯过程解析地定义了 预测分布 ,集成学习估计了预测的 经验分布 。

由于在训练过程中发生的随机偏差,任何单个模型都会产生一些错误。但是,把多个模型集成起来就会很强大。因为集成的模型犯错类型不同,当某个模型暴露其具有自身风格的失败时,其他多数模型与正确推断的预测一致。

我们如何从多个模型中随机抽样,构建集成模型呢?在 使用自举聚合进行集成 【也叫bagging】时,我们从规模为 的训练数据集中,采样 个大小为 的数据集(其中各个数据集都不涵盖整个原始训练集)。使用 个模型在各自的数据集上独立训练,其结果预测形成共同的经验预测分布。

如果训练多个模型代价太大,也可以使用 Dropout 操作来近似模型集成。不过,引入Dropout涉及额外的超参数,并且可能损害单个模型的性能(对于现实中的应用,Dropout在准确性要求极高,而不确定性估计是次要的场景中,是不能使用的)。

因此,如果你拥有丰富的计算资源(就像谷歌那样),训练一个模型的多个副本,【对于减少认知不确定性来说,】通常会更容易。这种做法具备集成的好处,而又不会损害性能。这即是 深度集成学习 这篇论文采用的方法。论文的作者还提到,不同权重初始化将引起训练的随机波动,这就足以形成多种【表现迥异的】模型,而不必通过自举聚合来应对训练集的多样性。从实际工程的角度来看,不以模型的性能为依据的风险评估方法是明智的。研究人员想要尝试的其他集成方法,在选择模型时,都不应该 仅 依据模型的性能表现。

对于我们的降雨量预测器,如果输入数据不是地表气压计的连续读数,而是太阳附近的温度,结果会如何?如果输入是一系列零呢?或者气压计读数单位不统一呢? 我们的RNN模型会“愉快地”计算并报告一个预测,但结果毫无意义。

上述情况下,一旦测试了与训练集不同的数据,模型的预测将完全不合格。这是一种在(基准驱动的)机器学习研究中经常被忽略的典型失败模式,因为我们通常假设训练集、验证集和测试集都是由干净的、独立同分布的数据组成的。

输入数据是否“有效”,是在实践中部署模型的一个需要特别注意的问题,有时这被称为越界(Out of Distribution,下文简称OoD)问题。有时也被称为 模型错误指定 或 异常检测 。

OoD检测的适用范围并不限于强化学习系统。例如,我们希望构建一个监控患者生命体征的系统,并在出现问题时提醒我们,而不必做所有病理检查。再如,我们管理数据中心时,想了解每时每刻可能发生的异常活动(像磁盘填满、安全漏洞、硬件故障等)。

由于OoD仅在测试时发生,我们不应该假设提前知道模型遇到的异常分布。这就是使OoD检测变得棘手的原因——我们必须强化模型,防止在训练期间遇到从未见过的输入!这正是 对抗样本学习 中典型的攻击系统的情形。

有两种方法可以处理机器学习模型的OoD输入:1)在我们将它们放入模型之前捕获不良输入;2)给出模型预测输入的“怪异性”,暗示我们输入可能是错误的。

第一种方法,我们不假设下游机器学习任务,只考虑输入数据是否在训练分布中。这正是生成式对抗网络(GAN)中判别器的职责。然而,单个判别器并不很可靠,它只能区分真实据分布和产生器的分布;当输入数据出离二者之外,判别器将反馈任意预测。

判别器不成了,我们就构建了预测正常分布的概率密度的模型,例如核密度估计器、或将 归一化流 拟合到数据。最近我和Hyunsun Choi在 使用现代生成模型进行OoD检测 的论文中对此进行了研究。

第二种OoD检测方法,则是使用模型预测(认知)不确定性,在输入是OoD的时候告诉我们。理想情况下,错误输入将会产生“怪异的”预测分布 。例如, Hendrycks和Gimpel证明 ,OoD输入的最大softmax概率(即预测类别)往往低于正常分布的输入。在这里,不确定性与最大softmax概率建模的“置信度”成反比。高斯过程这样的模型,构造性给出不确定性估计,而另一种做法,就是通过深度集成学习(Deep Ensembles)计算认知不确定性。

在强化学习中,遇到OoD输入是 好事 ,因为OoD代表了实际过程中模型尚不明确如何处理的输入。鼓励政策把寻找OoD输入看作成全其“自身的好奇心”的手段,以 探索模型预测不佳的区域 。这样的策略很好,但我很想知道,在现实世界环境中,如果发生了传感器破裂、或其他实验异常时,这些好奇心驱动的模型会发生什么。机器人将如何区分“没见过的状态”(好OoD)和“传感器破坏”(坏OoD)?是否会导致模型学到干扰它们的传感器机制,以产生最大的新奇感?

如前一节所述,防御OoD输入的方法之一是建立一个“监视”输入的模型。我更喜欢这种方法,它将OoD问题与任务模型中的认知不确定性与内在不确定性脱钩。从工程角度来看,更易于分析。

但我们不应该忘记,模型也是一个函数逼近器,可能有它自己的OoD错误! 我们在最近关于 产生式集成学习 的论文中给出(DeepMind的 同时期工作 也给出类似结论),在CIFAR似然模型下,来自SVHN的图像比CIFAR自身图像具有更大的似然值!

不过,情况并非一塌糊涂! 事实证明,似然模型的认知不确定性是似然模型自身的OoD检测器。 通过使用密度估计来实现认知不确定性估计,我们可以使用似然模型的集成学习,来以模型无关的方式保护机器学习模型,免受OoD输入的影响。

假设我们的降雨RNN预测模型告诉我们,今天的雨量将服从 。如果我们的模型被 校准 ,那么在相同条件下 重复 这个实验,我们将会观察到雨量的经验分布为 。

承接上文,我要提醒读者:不要仅仅看到模型输出了置信区间,就以为区间内的值代表了实际结果的概率!

置信区间(例如 )隐含地假设预测分布是高斯分布。如果尝试预测的分布是多模态的、或长尾的,那么模型将无法精确地校准(重复)!

当今学术界开发的机器学习模型,主要针对测试精度,或某些适应度函数进行优化。研究人员没有通过在重复相同的实验中部署模型,并测量校准误差来进行模型选择。因此(不出所料),我们的模型往往 校准不佳 。

展望未来,如果我们相信在现实世界中部署的机器学习系统(机器人、医疗保健等),“证明我们的模型正确理解世界”的更强大的方法是测试它们的统计校准。良好的校准性也意味着良好的准确性,因此校准将是一个严格的标准。

尽管标量的不确定性有用,随机变量形式的不确定性将提供更多信息。我发现,像粒子滤波和基于优化分布的强化学习等方法,在整个数据分布上进行优化,无需借助简单的正态分布来跟踪不确定性,这些方法很酷!我们构建基于机器学习的决策系统时,可以诉诸于分布的完整结构,而不是使用单个标量的“不确定性”,来决定下一步做什么。

隐含量化网络(Implicit Quantile Networks) 的论文(Dabney等人)就如何从输出分布中构建“风险敏感模型”进行了详细的讨论。在某些环境中,人们可能更倾向于选择探索未知的机会;而在另一些环境中,未知事物可能不安全,应该避免。 风险度量 的选择决定了如何将模型输出的分布映射到可以优化的标量。所有风险度量都可以从分布中计算出来,因此一旦预测了完整分布,我们就能够轻松地组合多种风险。此外,支持灵活的预测分布似乎是改进模型校准的好方法。

更糟的是,即使在分析意义上,它们也难以使用。我希望,对于基于优化分布的强化学习系统、蒙特卡罗方法、灵活的生成式模型的研究,将建立与投资组合优化器紧密结合的风险度量的可微松弛。如果你从事金融工作,我强烈建议你阅读IQN论文的“强化学习中的风险”部分。

以下是本文的重点概述:

88 评论

shuijing217

伴随着科技日新月异的发展推动着社会在不断的进步,人们的生活水平也逐渐提高,所有的事物都是有两面性的。计算机带给我们带来方便的同时,也给我们带来了安全问题。下面是我为大家整理的有关计算机病毒论文,供大家参考。

计算机这一科技产品目前在我们的生活中无处不在,在人们的生产生活中,计算机为我们带来了许多的便利,提升了人们生产生活水平,也使得科技改变生活这件事情被演绎的越来越精彩。随着计算机的广泛应用,对于计算机应用中存在的问题我们也应进行更为深刻的分析,提出有效的措施,降低这种问题出现的概率,提升计算机应用的可靠性。在计算机的广泛应用过程中,出现了计算机网路中毒这一现象,这种现象的存在,对于计算机的使用者而言,轻则引起无法使用计算机,重则会导致重要资讯丢失,带来经济方面的损失。计算机网路中毒问题成为了制约计算机网路资讯科技发展的重要因素,因此,对于计算机网路病毒的危害研究,目前已经得到人们的广泛重视,人们已经不断的对计算机网路病毒的传播和发展建立模型研究,通过建立科学有效的模型对计算机网路病毒的传播和发展进行研究,从中找出控制这些计算机网路病毒传播和发展的措施,从而提升计算机系统抵御网路病毒侵害,为广大网民营造一个安全高效的计算机网路环境。

一、计算机病毒的特征

***一***非授权性

正常的计算机程式,除去系统关键程式,其他部分都是由使用者进行主动的呼叫,然后在计算机上提供软硬体的支援,直到使用者完成操作,所以这些正常的程式是与使用者的主观意愿相符合的,是可见并透明的,而对于计算机病毒而言,病毒首先是一种隐蔽性的程式,使用者在使用计算机时,对其是不知情的,当用户使用那些被感染的正常程式时,这些病毒就得到了计算机的优先控制权,病毒进行的有关操作普通使用者也是无法知晓的,更不可能预料其执行的结果。

***二***破坏性

计算机病毒作为一种影响使用者使用计算机的程式,其破坏性是不言而喻的。这种病毒不仅会对正常程式进行感染,而且在严重的情况下,还会破坏计算机的硬体,这是一种恶性的破坏软体。在计算机病毒作用的过程中,首先是攻击计算机的整个系统,最先被破坏的就是计算机系统。计算机系统一旦被破坏,使用者的其他操作都是无法实现的。

二、计算机病毒网路传播模型稳定性

计算机病毒网路的传播模型多种多样,笔者结合自身工作经历,只对计算机病毒的网路传播模型———SIR模型进行介绍,并对其稳定性进行研究。SIR模型的英文全称为Susceptible-Infected-Removed,这是对SIS模型的一种改进,SIR模型将网路中的节点分为三种状态,分别定义为易感染状态***S表示***和感染状态***I***状态,还有免疫状态***R***表示,新增加的节点R具有抗病毒的能力。因此,这种模型相对于传统的SIS模型而言,解决了其中的不足,也对其中存在的病毒感染进行了避免,而且阻碍了病毒的继续扩散。图一即为病毒模型图。

三、计算机病毒网路传播的控制

对于计算机病毒在网路中的传播,我们应依据病毒传播的网路环境以及病毒的种类分别进行考虑。一般而言,对于区域网的病毒传播控制,我们主要是做好计算机终端的保护工作。如安装安全管理软体;对于广域网的病毒传播控制,我们主要是做好对区域网病毒入侵情况进行合理有效的监控,从前端防止病毒对于广域网的入侵;对于***病毒传播的控制,我们确保不随意点选不明邮件,防止个人终端受到***病毒的入侵。

总结:

网路技术的飞速发展,促进了计算机在社会各方面的广泛应用,不过随着计算机的广泛应用,计算机病毒网路传播的安全问题也凸显出来。本文对计算机网路病毒传播的模型进行研究,然后提出控制措施,希望在入侵者技术水平不断提高的同时,相关人士能积极思考研究,促进计算机病毒防护安全技术的发展,能有效应对威胁计算机网路安全的不法活动,提升我国计算机网路使用的安全性。

0引言

如今,资讯网际网路的软硬技术快速发展和应用越来越广,计算机病毒的危害也越来越严重。而日益氾滥的计算机病毒问题已成为全球资讯保安的最严重威胁之一。同时因为加密和变形病毒等新型计算机病毒的出现,使得过去传统的特征扫描法等反毒方式不再有效,研究新的反病毒方法已刻不容缓。广大的网路安全专家和计算机使用者对新型计算机病毒十分担忧,目前计算机反病毒的技术也在不断更新和提高中,却未能改变反病毒技术落后和被动的局面。我们从网际网路上的几款新型计算机病毒采用的技术和呈现的特点,可以看得出计算机病毒的攻击和传播方式随着网路技术的发展和普及发生了翻天覆地的变化。目前计算机病毒的传播途径呈现多样化,比如可以隐蔽附在邮件传播、档案传播、图片传播或视讯传播等中,并随时可能造成各种危害。

1目前计算机病毒发展的趋势

随着计算机软体和网路技术的发展,资讯化时代的病毒又具有许多新的特点,传播方式和功能也呈现多样化,危害性更严重。计算机病毒的发展趋势主要体现为:许多病毒已经不再只利用一个漏洞来传播病毒,而是通过两个或两个以上的系统漏洞和应用软体漏洞综合利用来实现传播;部分病毒的功能有类似于黑客程式,当病毒入侵计算机系统后能够控制并窃取其中的计算机资讯,甚至进行远端操控;有些病毒除了有传播速度快和变种多的特点,还发展到能主动利用***等方式进行传播。通过以上新型计算机病毒呈现出来的发展趋势和许多的新特征,可以了解到网路和电脑保安的形势依然十分严峻。

2计算机病毒的检测技术

笔者运用统计学习理论,对新计算机病毒的自动检测技术进行了研究,获得了一些成果,下面来简单介绍几个方面的研究成果。

利用整合神经网路作为模式识别器的病毒静态检测方法

根据Bagging演算法得出IG-Bagging整合方法。IG-Bagging方法利用资讯增益的特征选择技术引入到整合神经网路中,并通过扰动训练资料及输入属性,放大个体网路的差异度。实验结果表明,IG-Bagging方法的泛化能力比Bagging方法更强,与AttributeBagging方法差不多,而效率大大优于AttributeBagging方法。

利用模糊识别技术的病毒动态检测方法

该检测系统利用符合某些特征域上的模糊集来区别是正常程式,还是病毒程式,一般使用“择近原则”来进行特征分类。通过利用这种新型模糊智慧学习技术,该系统检测准确率达到90%以上。

利用API函式呼叫短序为特征空间的自动检测方法

受到正常程式的API呼叫序列有区域性连续性的启发,可以利用API函式呼叫短序为特征空间研究病毒自动检测方法。在模拟检测试验中,这种应用可以在检测条件不足的情况下,保证有较高的检测准确率,这在病毒库中缺少大量样本特征的情况下仍然可行。测验表明利用支援向量机的病毒动态检测模可能有效地识别正常和病毒程式,只需少量的病毒样本资料做训练,就能得到较高的检测精准确率。因为检测过程中提取的是程式的行为资讯,所以能有效地检测到采用了加密、迷惑化和动态库载入技术等新型计算机病毒。

利用D-S证据理论的病毒动态与静态相融合的新检测方法

向量机作为成员分类器时,该检测系统研究支援病毒的动态行为,再把概率神经网路作为成员分类器,此时为病毒的静态行为建模,再利用D-S证据理论将各成员分类器的检测结果融合。利用D-S证据理论进行资讯融合的关键就是证据信度值的确定。在对实际问题建模中,类之间的距离越大,可分性越强,分类效果越好,因此得出了利用类间距离测度的证据信度分配新病毒检测方法。实验测试表明该方法对未知和变形病毒的检测都很有效,且效能优于常用的商用反病毒工具软体。

多重朴素贝叶斯演算法的病毒动态的检测系统

该检测系统在测试中先对目标程式的行为进行实时监控,然后获得目标程式在与作业系统资讯互动过程中所涉及到的API函式相关资讯的特征并输入检测器,最后检测器对样本集进行识别后就能对该可疑程式进行自动检测和防毒,该法可以有效地检测当前越来越流行的变形病毒。3结语新型未知计算机病毒发展和变种速度惊人,而计算机病毒的预防和检测方法不可能十全十美,出现一些新型的计算机病毒能够突破计算机防御系统而感染系统的现象不可避免,故反计算机病毒工作始终面临巨大的挑战,需要不断研究新的计算机病毒检测方法来应对。

211 评论

mini灵灵

拯救地球(Saving the Earth):英语作文范文 The population of the earth is increasing very fast. Humans must make the earth support the increasing population. This has made it necessary for agriculture and industry to develop rapidly. Such a rapid development produces more and more waste, which goes into the water, the soil and the air. Some of it is made harmless. However, where there is too much of it, the poisonous waste may do great harm to the things around the people. When farmers add fertilizer to the soil to make plants grow better, or use poison to kill pests, poison is sent into the air, the water and the soil. When birds, fish and people eat the grain, drink the water or breath the air, harm will be done to their health. The air in big cities is often made very dirty by cars and factories. Millions of tons of waste and poisonous gases are sent into the air with the smoke. In some places, little is done to make the smoke clean before it goes into the air. Fortunately, people are beginning to realize just how serious the whole situation is. In many countries, laws have been made to stop factories from sending out poisonous gases. Saving Our Earth It is very important to deal with the rubbish in cities. For one thing, rubbish may cause a lot of pollution. It may pollute the air, the water and the places we live in. For another, it may do harm to people's health. So in our city, rubbish is well dealt with. First, it is sorted. Then old newspapers and glass are recycled. The harmful wastes are buried and the waste water is cleaned before it goes into the river. The government has already made laws against pollution caused by rubbish. But that's not enough. We must all try our. best to prevent rubbish from polluting the environment so as to. save our city and our living place. 拯救地球 处理城市垃圾是一个非常重要的问题。首先,垃圾会导致污染。它会污染空气、水和人们居住的场所。其次,它会危害人类健康。 所以我们在城市中,垃圾得到了妥善处理。我们首先将垃圾分类,然后可将旧报纸和玻璃制品进行再生利用。有害的废物要被掩埋,污水要在净化后才排入河流。政府已经制定了规章,禁止垃圾污染。 仅仅这些还不够。我们大家必须竭尽全力防止拉圾污染环境以及拯救我们的城市,拯救我们的家园。

90 评论

小苹果花苑

The population of the earth is increasing very fast. Humans must make the earth support the increasing population. This has made it necessary for agriculture and industry to develop rapidly. Such a rapid development produces more and more waste, which goes into the water, the soil and the air. Some of it is made harmless. However, where there is too much of it, the poisonous waste may do great harm to the things around the people. When farmers add fertilizer to the soil to make plants grow better, or use poison to kill pests, poison is sent into the air, the water and the soil. When birds, fish and people eat the grain, drink the water or breath the air, harm will be done to their health. The air in big cities is often made very dirty by cars and factories. Millions of tons of waste and poisonous gases are sent into the air with the smoke. In some places, little is done to make the smoke clean before it goes into the air. Fortunately, people are beginning to realize just how serious the whole situation is. In many countries, laws have been made to stop factories from sending out poisonous gases.

188 评论

相关问答

  • 论文范文论文范文论文

    论文常用来指进行各个学术领域的研究和描述学术研究成果的 文章 ,简称之为论文。本文是我为大家整理的1000字的论文 范文 ,仅供参考。 在现代社会中,人

    咩~咩~羊 2人参与回答 2023-12-09
  • 规范科技论文范文

    怎样馔写科技论文 一、科技论文的含义� 科学技术论文简称科技论文。它一般包括:报刊科技论文、学年论文、毕业论文,学位论文(又分学士、硕士、博士论文。科技论文是在

    阳光白龙 2人参与回答 2023-12-10
  • 论文范文格式范文

    1、论文题目:要求准确、简练、醒目、新颖。2、目录:目录是论文中主要段落的简表。(短篇论文不必列目录)3、提要:是文章主要内容的摘录,要求短、精、完整。字数少可

    星愿乐活 4人参与回答 2023-12-10
  • 软考范围论文范文

    备靠2022年信息系统项目管理师的同学们注意了,以下写作难题你一定会遇到,所以该如何注意避免呢,我们一起来分析一下!

    了无痕Sky 4人参与回答 2023-12-05
  • 师范论文范文3000字

    随着经济全球化的深入发展,人才需求在未来也将趋向全球化,幼儿 教育 事业直接影响到人才的培养,进而影响一国综合国力的兴衰。下文是我为大家搜集整理的关于幼儿教

    蓝色琴弦 4人参与回答 2023-12-11