无监督异常检测论文集

3个回答默认排序

默认排序

按时间排序

冬眠的羽毛

已采纳

雷锋网 AI 科技评论按：百度研究院、华中科技大学、悉尼科技大学联合新作——关于无监督领域自适应语义分割的论文《 Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》被 CCF A 类学术会议 CVPR2019 收录为 Oral 论文。该论文提出了一种从「虚拟域」泛化到「现实域」的无监督语义分割算法，旨在利用易获取的虚拟场景标注数据来完成对标注成本高昂的现实场景数据的语义分割，大大减少了人工标注成本。本文是论文作者之一罗亚威为雷锋网 AI 科技评论提供的论文解读。论文地址： 1.问题背景基于深度学习的语义分割方法效果出众，但需要大量的人工标注进行监督训练。不同于图像分类等任务，语义分割需要像素级别的人工标注，费时费力，无法大规模实施。借助于计算机虚拟图像技术，如3D游戏，用户可以几乎无成本地获得无限量自动标注数据。然而虚拟图像和现实图像间存在严重的视觉差异（域偏移），如纹理、光照、视角差异等等，这些差异导致在虚拟图像上训练出的深度模型往往在真实图像数据集上的分割精度很低。 2. 传统方法针对上述域偏移问题，一种广泛采用的方法是在网络中加入一个域判别器Discriminator (D），利用对抗训练的机制，减少源域Source (S）和目标域Target（T）之间不同分布的差异，以加强原始网络（G）在域间的泛化能力。方法具体包括两方面：（1）利用源域的有标签数据进行有监督学习，提取领域知识：其中Xs，Ys为源域数据及其对应标签。（2）通过对抗学习，降低域判别器（D）的精度，以对齐源域与目标域的特征分布：其中XT为目标域数据，无标签。 3.我们针对传统方法的改进以上基于对抗学习的传统域适应方法只能对齐全局特征分布（Marginal Distribution），而忽略了不同域之间，相同语义特征的语义一致性（Joint Distribution），在训练过程中容易造成负迁移，如图2（a）所示。举例来说，目标域中的车辆这一类，可能与源域中的车辆在视觉上是接近的。因此，在没有经过域适应算法之前，目标域车辆也能够被正确分割。然而，为了迎合传统方法的全局对齐，目标域中的车辆特征反而有可能会被映射到源域中的其他类别，如火车等，造成语义不一致。针对这一问题，我们在今年CVPR的论文中，向对抗学习框架里加入了联合训练的思想，解决了传统域适应方法中的语义不一致性和负迁移等键问题。具体做法见图2（b），我们采用了两个互斥分类器对目标域特征进行分类。当两个分类器给出的预测很一致时，我们认为该特征已经能被很好的分类，语义一致性较高，所以应减少全局对齐策略对这些特征产生的负面影响。反之，当两个分类器给出的预测不一致，说明该目标域特征还未被很好地分类，依然需要用对抗损失进行与源域特征的对齐。所以应加大对齐力度，使其尽快和源域特征对应。 4.网络结构为了实现上述语义级对抗目标，我们提出了Category-Level Adversarial Network (CLAN)。遵循联合训练的思想，我们在生成网络中采用了互斥分类器的结构，以判断目标域的隐层特征是否已达到了局部语义对齐。在后续对抗训练时，网络依据互斥分类器产生的两个预测向量之差（Discrepancy）来对判别网络所反馈的对抗损失进行加权。网络结构如下图3所示。图3中，橙色的线条表示源域流，蓝色的线条表示目标域流，绿色的双箭头表示我们在训练中强迫两个分类器的参数正交，以达到互斥分类器的目的。源域流和传统的方法并无很大不同，唯一的区别是我们集成了互斥分类器产生的预测作为源域的集成预测。该预测一方面被标签监督，产生分割损失（Segmentation Loss），如式（3）所示：另一方面，该预测进入判别器D，作为源域样本。绿色的双箭头处，我们使用余弦距离作为损失，训练两个分类器产生不同的模型参数：目标域流中，集成预测同样进入判别器D。不同的是，我们维持两个分类器预测的差值，作为局部对齐程度的依据 (local alignment score map）。该差值与D所反馈的损失相乘，生成语义级别的对抗损失：该策略加大了语义不一致特征的对齐力度，而减弱了语义一致的特征受全局对齐的影响，从而加强了特征间的语义对齐，防止了负迁移的产生。最后，根据以上三个损失，我们可以得出最终的总体损失函数：基于以上损失函数，算法整体的优化目标为：在训练中，我们交替优化G和D，直至损失收敛。 5. 特征空间分析我们重点关注不常见类，如图4（a）中黄框内的柱子，交通标志。这些类经过传统方法的分布对齐，反而在分割结果中消失了。结合特征的t-SNE图，我们可以得出结论，有些类的特征在没有进行域迁移之前，就已经是对齐的。传统的全局域适应方法反而会破坏这种语义一致性，造成负迁移。而我们提出的语义级别对抗降低了全局对齐对这些已对齐类的影响，很好的解决了这一问题。 6. 实验结果我们在两个域适应语义分割任务，即GTA5 -> Cityscapes 和 SYNTHIA -> Cityscapes 上进行了实验验证。我们采用最常见的Insertion over Union作为分割精度的衡量指标，实验结果如下。从表1和表2中可以看出，在不同网络结构（VGG16，ResNet101）中，我们的方法（CLAN）域适应效果都达到了 state-of-the-art的精度。特别的，在一些不常见类上（用蓝色表示），传统方法容易造成负迁移，而CLAN明显要优于其他方法。表 1. 由虚拟数据集GTA5 迁移至真实数据集 Cityscapes 的域适应分割精度对比。表 2. 由虚拟数据集SYNTHIA 迁移至真实数据集 Cityscapes 的域适应分割精度对比。第二个实验中，我们了展示隐空间层面，源域和目标域间同语义特征簇的中心距离。该距离越小，说明两个域间的语义对齐越好。结果见图 5。最后，我们给出分割结果的可视化效果。我们的算法大大提高了分割精度。 7. 总结《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》引入了联合训练结合对抗学习的设计，在无监督域适应语义分割任务中取得了较好的实验结果。该算法能应用前景广泛，比如能够很好地应用到自动驾驶中，让车辆在不同的驾驶环境中也能保持鲁棒的街景识别率。最后 CVPR 2019 Oral 论文精选汇总，值得一看的 CV 论文都在这里（持续更新中）CVPR 2019 即将于 6 月在美国长滩召开。今年有超过 5165 篇的大会论文投稿，最终录取 1299 篇，其中 Oral 论文近 300 篇。为了方便社区开发者和学术青年查找和阅读高价值论文，AI 研习社从入选的 Oral 论文中，按应用方向挑选了部分精华论文，贴在本文，打开链接即可查看~

192 评论 2小时前发布

susyweswes

“异常”通常是一个主观的判断，什么样的数据被认为是“异常”的，需要结合业务背景和环境来具体分析确定。实际上，数据通常嵌入在大量的噪声中，而我们所说的”异常值“通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值，没有被分析的价值。在普通的数据处理中，我们通常保留正常的数据，而对噪声和异常值的特性则基本忽略。但在异常检测中，我们弱化了“噪声”和“正常数据”之间的区别，专注于那些具有有价值特性的异常值。在基于相似度的方法中，主要思想是异常点与正常点不同。基于距离的方法是一种常见的异常检测算法，它基于最邻距离来定义异常值。此类方法不仅适用于多维数值数据，在其他领域，例如分类数据，文本数据，时间序列数据序列数据也有广泛的应用。基于距离的异常检测有这样一个前提假设，即异常点的近邻距离要远大于正常点。解决问题的最简单的方法是使用嵌套循环。第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多余个数据点与当前点的距离在之内，则将该点自动标记为非异常值。这样计算的时间复杂度为 ,当数据量较大时，这样计算并不划算。因此需要修剪方法以加快距离计算。在基于单元格的技术中，数据空间被划分为单元格，单元格的宽度是阈值D和数据维度数的函数。具体地说，每个维度被划分成宽度最多为单元格。在给定的单元以及相邻的单元中存在的数据点满足某些特性，这些特性可以让数据被更有效的处理以二维情况为例，此时网格间的距离为，需要记住的一点是，网格单元的数量基于数据空间的分区，并且与数据的数量点无关。这是决定该方法在低维数据上的效率的重要因素，在这种情况下，网格单元的数量可能不多。另一方面，此方法不适用于更高维的数据。对于给定的单元格，其邻居被定义为通过最多1个单元间的边界可从该单元到达的单元格的集合。请注意，在一个角上接触的两个单元格也是邻居。邻居是通过跨越2个或者3个边界而获得的那些单元格。上图中显示了标记为的特定单元格及其和邻居集。显然，内部单元具有8个邻居和40个邻居。然后，可以立即观察到以下的几种性质：此过程的第一步是将部分数据点直接标记为非异常值（如果由于第一个规则而导致他们的单元格包含个点以上）。此外，此类单元格的所有相邻单元格仅包含非异常值。为了充分利用第一条规则的修剪能力，确定每个单元格及其邻居中点的总和。如果总数大于 ,则这些点也都标记为非离群点。接下来，利用第二条规则的修剪能力。对于包含至少一个数据点的每个单元格，计算其中的点数及其和邻居的总和。如果该数字不超过，则将单元格中的所有点标记为离群值。此时，许多单元可能被标记为异常值或非异常值。对于此时仍未标记为异常值或非异常值的单元格中的数据点需要明确计算其最近邻距离。即使对于这样的数据点，通过使用单元格结构也可以更快地计算出个最近邻的距离。考虑到目前为止尚未被标记为异常值或非异常值的单元格。这样的单元可能同时包含异常值和非异常值。单元格中数据点的不确定性主要存在于该单元格的邻居中的点集。无法通过规则知道的邻居中的点是否在阈值距离内，为了确定单元中数据点与其邻居中的点集在阈值距离内的点数，需要进行显式距离计算。对于那些在和中不超过个且距离小于的数据点，则声明为异常值。需要注意，仅需要对单元中的点到单元的邻居中的点执行显式距离计算。这是因为已知邻居中的所有点到中任何点的距离都小于，并且已知中的所有点与上任何点的距离至少为。因此，可以在距离计算中实现额外的节省。对于一个给定数据集，基于索引的方法利用多维索引结构(如树、树)来搜索每个数据对象在半径范围内的相邻点。设是一个异常值在其 -邻域内允许含有对象的最多个数，若发现某个数据对象的 -邻域内出现甚至更多个相邻点，则判定对象不是异常值。该算法时间复杂度在最坏情况下为其中是数据集维数，是数据集包含对象的个数。该算法在数据集的维数增加时具有较好的扩展性，但是时间复杂度的估算仅考虑了搜索时间，而构造索引的任务本身就需要密集复杂的计算量。基于密度的算法主要有局部离群因子(LocalOutlierFactor,LOF)，以及LOCI、CLOF等基于LOF的改进算法。下面我们以LOF为例来进行详细的介绍和实践。基于距离的检测适用于各个集群的密度较为均匀的情况。在下图中，离群点B容易被检出，而若要检测出较为接近集群的离群点A，则可能会将一些集群边缘的点当作离群点丢弃。而LOF等基于密度的算法则可以较好地适应密度不同的集群情况。那么，这个基于密度的度量值是怎么得来的呢？还是要从距离的计算开始。类似k近邻的思路，首先我们也需要来定义一个“k-距离”。对于数据集D中的某一个对象o，与其距离最近的k个相邻点的最远距离表示为k-distance(p)，定义为给定点p和数据集D中对象o之间的距离d(p,o)，满足：由k-距离，我们扩展到一个点的集合——到对象o的距离小于等于k-距离的所有点的集合，我们称之为k-邻域：。在二维平面上展示出来的话，对象o的k-邻域实际上就是以对象o为圆心、k-距离为半径围成的圆形区域。就是说，k-邻域已经从“距离”这个概念延伸到“空间”了。有了邻域的概念，我们可以按照到对象o的距离远近，将数据集D内的点按照到o的距离分为两类：给定点p关于对象o的可达距离用数学公式可以表示为：。这样的分类处理可以简化后续的计算，同时让得到的数值区分度更高。我们可以将“密度”直观地理解为点的聚集程度，就是说，点与点之间距离越短，则密度越大。在这里，我们使用数据集D中给定点p与对象o的k-邻域内所有点的可达距离平均值的倒数（注意，不是导数）来定义局部可达密度。给定点p的局部可达密度计算公式为：由公式可以看出，这里是对给定点p进行度量，计算其邻域内的所有对象o到给定点p的可达距离平均值。给定点p的局部可达密度越高，越可能与其邻域内的点属于同一簇；密度越低，越可能是离群点。表示点p的邻域内其他点的局部可达密度与点p的局部可达密度之比的平均数。如果这个比值越接近1，说明o的邻域点密度差不多，o可能和邻域同属一簇；如果这个比值小于1，说明o的密度高于其邻域点密度，o为密集点；如果这个比值大于1，说明o的密度小于其邻域点密度，o可能是异常点。最终得出的LOF数值，就是我们所需要的离群点分数。在sklearn中有LocalOutlierFactor库，可以直接调用。下面来直观感受一下LOF的图像呈现效果。 LocalOutlierFactor库可以用于对单个数据集进行无监督的离群检测，也可以基于已有的正常数据集对新数据集进行新颖性检测。在这里我们进行单个数据集的无监督离群检测。首先构造一个含有集群和离群点的数据集。该数据集包含两个密度不同的正态分布集群和一些离群点。但是，这里我们手工对数据点的标注其实是不准确的，可能有一些随机点会散落在集群内部，而一些集群点由于正态分布的特性，会与其余点的距离相对远一些。在这里我们无法进行区分，所以按照生成方式统一将它们标记为“集群内部的点”或者“离群点”。然后使用LocalOutlierFactor库对构造数据集进行训练，得到训练的标签和训练分数（局部离群值）。为了便于图形化展示，这里对训练分数进行了一些转换。可以看出，模型成功区分出了大部分的离群点，一些因为随机原因散落在集群内部的“离群点”也被识别为集群内部的点，但是一些与集群略为分散的“集群点”则被识别为离群点。同时可以看出，模型对于不同密度的集群有着较好的区分度，对于低密度集群与高密度集群使用了不同的密度阈值来区分是否离群点。因此，我们从直观上可以得到一个印象，即基于LOF模型的离群点识别在某些情况下，可能比基于某种统计学分布规则的识别更加符合实际情况。

331 评论 11小时前发布

川猫之介

一、基本概念异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。常见的异常成因：数据来源于不同的类（异常对象来自于一个与大多数数据对象源（类）不同的源（类）的思想），自然变异，以及数据测量或收集误差。异常检测的方法：（1）基于模型的技术：首先建立一个数据模型，异常是那些同模型不能完美拟合的对象；如果模型是簇的集合，则异常是不显著属于任何簇的对象；在使用回归模型时，异常是相对远离预测值的对象。（2）基于邻近度的技术：通常可以在对象之间定义邻近性度量，异常对象是那些远离其他对象的对象。（3）基于密度的技术：仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。二、异常点检测的方法 1、统计方法检测离群点统计学方法是基于模型的方法，即为数据创建一个模型，并且根据对象拟合模型的情况来评估它们。大部分用于离群点检测的统计学方法都是构建一个概率分布模型，并考虑对象有多大可能符合该模型。离群点的概率定义：离群点是一个对象，关于数据的概率分布模型，它具有低概率。这种情况的前提是必须知道数据集服从什么分布，如果估计错误就造成了重尾分布。异常检测的混合模型方法：对于异常检测，数据用两个分布的混合模型建模，一个分布为普通数据，而另一个为离群点。聚类和异常检测目标都是估计分布的参数，以最大化数据的总似然（概率）。聚类时，使用EM算法估计每个概率分布的参数。然而，这里提供的异常检测技术使用一种更简单的方法。初始时将所有对象放入普通对象集，而异常对象集为空。然后，用一个迭代过程将对象从普通集转移到异常集，只要该转移能提高数据的总似然（其实等价于把在正常对象的分布下具有低概率的对象分类为离群点）。（假设异常对象属于均匀分布）。异常对象由这样一些对象组成，这些对象在均匀分布下比在正常分布下具有显著较高的概率。优缺点：（1）有坚实的统计学理论基础，当存在充分的数据和所用的检验类型的知识时，这些检验可能非常有效；（2）对于多元数据，可用的选择少一些，并且对于高维数据，这些检测可能性很差。 2、基于邻近度的离群点检测。一个对象是异常的，如果它远离大部分点。这种方法比统计学方法更一般、更容易使用，因为确定数据集的有意义的邻近性度量比确定它的统计分布更容易。一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分对k的取值高度敏感。如果k太小（例如1），则少量的邻近离群点可能导致较低的离群点得分；如果k太大，则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性，可以使用k个最近邻的平均距离。优缺点：（1）简单；（2）缺点：基于邻近度的方法需要O(m^2)时间，大数据集不适用；（3）该方法对参数的选择也是敏感的；（4）不能处理具有不同密度区域的数据集，因为它使用全局阈值，不能考虑这种密度的变化。 3、基于密度的离群点检测。从基于密度的观点来说，离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。基于密度的离群点检测与基于邻近度的离群点检测密切相关，因为密度通常用邻近度定义。一种常用的定义密度的方法是，定义密度为到k个最近邻的平均距离的倒数。如果该距离小，则密度高，反之亦然。另一种密度定义是使用DBSCAN聚类算法使用的密度定义，即一个对象周围的密度等于该对象指定距离d内对象的个数。需要小心的选择d，如果d太小，则许多正常点可能具有低密度，从而具有高离群点得分。如果d太大，则许多离群点可能具有与正常点类似的密度（和离群点得分）。使用任何密度定义检测离群点具有与基于邻近度的离群点方案类似的特点和局限性。特殊地，当数据包含不同密度的区域时，它们不能正确的识别离群点。为了正确的识别这种数据集中的离群点，我们需要与对象邻域相关的密度概念，也就是定义相对密度。常见的有两种方法：（1）使用基于SNN密度的聚类算法使用的方法；（2）用点x的密度与它的最近邻y的平均密度之比作为相对密度。使用相对密度的离群点检测（局部离群点要素LOF技术）：首先，对于指定的近邻个数（k），基于对象的最近邻计算对象的密度density(x,k) ，由此计算每个对象的离群点得分；然后，计算点的邻近平均密度，并使用它们计算点的平均相对密度。这个量指示x是否在比它的近邻更稠密或更稀疏的邻域内，并取作x的离群点得分（这个是建立在上面的离群点得分基础上的）。优缺点：（1）给出了对象是离群点的定量度量，并且即使数据具有不同的区域也能够很好的处理；（2）与基于距离的方法一样，这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm)；（3）参数选择是困难的。虽然LOF算法通过观察不同的k值，然后取得最大离群点得分来处理该问题，但是，仍然需要选择这些值的上下界。 4、基于聚类的技术一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇。这个方法可以和其他任何聚类技术一起使用，但是需要最小簇大小和小簇与其他簇之间距离的阈值。这种方案对簇个数的选择高度敏感。使用这个方案很难将离群点得分附加到对象上。一种更系统的方法，首先聚类所有对象，然后评估对象属于簇的程度（离群点得分）（基于原型的聚类可用离中心点的距离来评估，对具有目标函数的聚类技术该得分反映删除对象后目标函数的改进（这个可能是计算密集的））。基于聚类的离群点：一个对象是基于聚类的离群点，如果该对象不强属于任何簇。离群点对初始聚类的影响：如果通过聚类检测离群点，则由于离群点影响聚类，存在一个问题：结构是否有效。为了处理该问题，可以使用如下方法：对象聚类，删除离群点，对象再次聚类（这个不能保证产生最优结果）。还有一种更复杂的方法：取一组不能很好的拟合任何簇的特殊对象，这组对象代表潜在的离群点。随着聚类过程的进展，簇在变化。不再强属于任何簇的对象被添加到潜在的离群点集合；而当前在该集合中的对象被测试，如果它现在强属于一个簇，就可以将它从潜在的离群点集合中移除。聚类过程结束时还留在该集合中的点被分类为离群点（这种方法也不能保证产生最优解，甚至不比前面的简单算法好，在使用相对距离计算离群点得分时，这个问题特别严重）。对象是否被认为是离群点可能依赖于簇的个数（如k很大时的噪声簇）。该问题也没有简单的答案。一种策略是对于不同的簇个数重复该分析。另一种方法是找出大量小簇，其想法是（1）较小的簇倾向于更加凝聚，（2）如果存在大量小簇时一个对象是离群点，则它多半是一个真正的离群点。不利的一面是一组离群点可能形成小簇而逃避检测。优缺点：（1）基于线性和接近线性复杂度（k均值）的聚类技术来发现离群点可能是高度有效的；（2）簇的定义通常是离群点的补，因此可能同时发现簇和离群点；（3）产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性；（4）聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。新颖性和离群值检测离群值检测：训练数据包含离群值，即与其他观测值相距甚远的观测值。离群检测估计器会尝试拟合训练数据最集中的区域，忽略异常观察。新颖性检测：训练数据不受异常值的污染，有兴趣检测新观察值是否是异常值。该情况下离群值也称为新颖性。离群值检测和新颖性检测均用于异常检测，离群值检测称为无监督异常检测，新颖性检测称为半监督异常检测。离群值检测的情况下，离群值/异常不能形成密集的群集，可假设离群值/异常位于低密度区域；新颖性检测的情况下，只要新颖性/异常位于训练数据的低密度区域，就可以形成密集的簇。通过对玩具数据集进行异常检测比较异常检测算法数据集中包含一种或两种模式（高密度区域），以说明算法处理多模式数据的能力。对于每个数据集，将生成15%的样本作为随机均匀噪声。该比例是OneClassSVM的nu参数和其他异常值检测算法的污染参数提供的值。离群值之间的决策边界以黑色显示，但是LOF除外，因为当采用LOF用于离群值检测时，没有适用于新数据的预测方法。 OneClassSVM对异常值敏感，对异常值检测执行的不好。当训练集不受异常值污染时，此估计器最适合新颖性检测。即不适用在高维中进行离群值检测或者不对基础数据的分布进行任何假设，OneClassSVM在这些情况下可能会根据其超参数给出有用的结果。 covariance EllipticEnvelope（协方差椭圆密度）假定数据是高斯分布并学习一个椭圆。在数据不是单峰时，会退化。此估计器对异常值具有鲁棒性。 IsolationFrorest和LocalOutlierFactor针对多模式数据集效果显著。LOF针对第三种数据集，明显优于其它三种估计器，该数据集中两种模式的密度不同。LOF的局部方面，即它仅将一个样本的异常评分与其邻居评分作比较，从何体现了该方法的优势。针对最后一个均匀分布在超立方体中的数据集，很难说一个样本比另一个样本异常得多。除了OneClassSVM有些过拟合外，所有估计器都针对该情况提出不错的解决方案。针对这种情况，应该仔细观察样本的异常分数，性能好的估算器应该为所有样本分配相似的分数。使用局部离群因子（LOF）进行离群值检测 LOF算法是一种无监督的异常检测方法，可计算给定数据点相对于其邻居的局部密度偏差。其中密度远低于其邻居的样本为异常值。 LOF算法的优势在于同时考虑了数据集的局部和全局属性：即使在异常样本具有不同底层密度的数据集中，仍能保持良好性能。问题不在于样本有多孤立，而在于样本相对于周围邻域有多孤立。通常考虑的邻居数量（1）大于群集必须包含的最小样本数量，以便其他样本可以是相对于该群集的局部离散值；（2）小于可能是局部异常值的最大进距采样数，此类消息通常不可用，采用n_neighbors=20。具有局部异常值的新颖性检验 LOF是一种无监督的异常检测方法，可计算给定数据点相对于其邻居的局部密度偏差，密度远低于其邻居的样本为异常值。LOF用于新颖性检验时，切勿在训练集上使用预测、决定函数、实例得分，会导致结果错误。只能对新的看不见的数据（不在训练集中）使用这些方法。通常考虑邻居数量（1）大于群集必须包含的最小样本数，以便其他样本可以是相对于该群集的局部离群值；（2）小于可能是局部异常值的最大进距采样数，此类消息通常不可用，采用n_neighbors=20。隔离林在高维数据集中执行异常检测的一种有效方法是使用随机森林，分离的观察通过随机选择一个函数，随机选择所选择的特征的最大值和最小值之间的分割值。递归分区可用树结构表示，隔离样本所需的拆分数量等于从根节点到终止结点的路径长度。随机树的森林中的平均路径长度是对正态性和决策函数的度量。随机分区产生的异常路径明显较短，因此如果随机树森林为特定样本生成的较短路径，则该树代表的值很可能是异常的。 OneClassSVM 无监督的离群值检测，支持高维分布，基于libsvm 不假定数据分布的任何参数形式，可以更好的对数据的复杂形状进行建模，能够捕获真实的数据结构，难点在于调整核函数宽度参数，以便在数据散布矩阵的形状和数据过度拟合的风险间取得折中。协方差椭圆密度用于检测高斯分布数据集中的异常值的对象经验协方差估计（作为非稳健估计）受到观测值异质结构的高度影响；鲁棒协方差估计能够集中于数据分布的主要模式，但是它坚持假设数据是高斯分布，产生了对数据结构的某些估计，在一定程度上是准确的。HBOS单维效果极佳，但是标准差方法的mask 掩码效应严重。例如数据通常在100以内，但是有两个异常点，500，1000000。这个算法就不能检出500这个异常点。对比而言，孤立森林理论上更适合大数据的异常检测，且无掩码效应。孤立森林确定异常时训练只用样本数据。每颗树样本数量默认只有256个，默认只用100颗树。所以理论上25600个样本就能确定海量数据中的异常点了。 Sklearn的 isolation forest 例子默认是读入全量数据再采样。如果配上warm up 选项就能分批放入采样。异常检测的深度学习研究综述

254 评论 12小时前发布

无监督异常检测论文集

3个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序