人工智能水论文异常检测

3个回答默认排序

默认排序

按时间排序

吃兔吃土

已采纳

'外延'和'内涵'属于形式逻辑中的概念。所谓外延，是指一个概念所反映的每一个对象；而所谓内涵，则是指对每一个概念对象特有属性的反映。命题时，若不考虑逻辑上有关外延和内涵的恰当运用，则有可能出现谬误，至少是不当。如：'对农村合理的全、畜、机动力组合的设计'这一标题即存在逻辑上的错误。题名中的'人'，其外延可能是青壮年，也可以是指婴儿、幼儿或老人，因为后者也?quot;人'，然而却不是具有劳动能力的人，显然不属于命题所指，所以泛用'人'，其外延不当。同理，'畜'可以指牛，但也可以指羊和猪，试问，哪里见到过用羊和猪来犁田拉磨的呢？所以也属于外延不当的错误。其中，由于使用'劳力'与'畜力'，就不会分别误解成那些不具有劳动能力和不能使役的对象。

320 评论 2小时前发布

七七七绮哥

人工智能的三大基石—算法、数据和计算能力，算法作为其中之一，是非常重要的，那么人工智能都会涉及哪些算法呢？不同算法适用于哪些场景呢？一、按照模型训练方式不同可以分为监督学习（Supervised Learning），无监督学习（Unsupervised Learning）、半监督学习（Semi-supervised Learning）和强化学习（Reinforcement Learning）四大类。常见的监督学习算法包含以下几类：（1）人工神经网络（Artificial Neural Network）类：反向传播（Backpropagation）、波尔兹曼机（Boltzmann Machine）、卷积神经网络（Convolutional Neural Network）、Hopfield网络（hopfield Network）、多层感知器（Multilyer Perceptron）、径向基函数网络（Radial Basis Function Network，RBFN）、受限波尔兹曼机（Restricted Boltzmann Machine）、回归神经网络（Recurrent Neural Network，RNN）、自组织映射（Self-organizing Map，SOM）、尖峰神经网络（Spiking Neural Network）等。（2）贝叶斯类（Bayesin）：朴素贝叶斯（Naive Bayes）、高斯贝叶斯（Gaussian Naive Bayes）、多项朴素贝叶斯（Multinomial Naive Bayes）、平均-依赖性评估（Averaged One-Dependence Estimators，AODE）贝叶斯信念网络（Bayesian Belief Network，BBN）、贝叶斯网络（Bayesian Network，BN）等。（3）决策树（Decision Tree）类：分类和回归树（Classification and Regression Tree，CART）、迭代Dichotomiser3（Iterative Dichotomiser 3， ID3）,算法（ Algorithm）、算法（ Algorithm）、卡方自动交互检测（Chi-squared Automatic Interaction Detection，CHAID）、决策残端（Decision Stump）、ID3算法（ID3 Algorithm）、随机森林（Random Forest）、SLIQ（Supervised Learning in Quest）等。（4）线性分类器（Linear Classifier）类：Fisher的线性判别（Fisher’s Linear Discriminant）线性回归（Linear Regression）、逻辑回归（Logistic Regression）、多项逻辑回归（Multionmial Logistic Regression）、朴素贝叶斯分类器（Naive Bayes Classifier）、感知（Perception）、支持向量机（Support Vector Machine）等。常见的无监督学习类算法包括：（1）人工神经网络（Artificial Neural Network）类：生成对抗网络（Generative Adversarial Networks，GAN），前馈神经网络（Feedforward Neural Network）、逻辑学习机（Logic Learning Machine）、自组织映射（Self-organizing Map）等。（2）关联规则学习（Association Rule Learning）类：先验算法（Apriori Algorithm）、Eclat算法（Eclat Algorithm）、FP-Growth算法等。（3）分层聚类算法（Hierarchical Clustering）：单连锁聚类（Single-linkage Clustering），概念聚类（Conceptual Clustering）等。（4）聚类分析（Cluster analysis）：BIRCH算法、DBSCAN算法，期望最大化（Expectation-maximization，EM）、模糊聚类（Fuzzy Clustering）、K-means算法、K均值聚类（K-means Clustering）、K-medians聚类、均值漂移算法（Mean-shift）、OPTICS算法等。（5）异常检测（Anomaly detection）类：K最邻近（K-nearest Neighbor，KNN）算法，局部异常因子算法（Local Outlier Factor，LOF）等。常见的半监督学习类算法包含：生成模型（Generative Models）、低密度分离（Low-density Separation）、基于图形的方法（Graph-based Methods）、联合训练（Co-training）等。常见的强化学习类算法包含：Q学习（Q-learning）、状态-行动-奖励-状态-行动（State-Action-Reward-State-Action，SARSA）、DQN（Deep Q Network）、策略梯度算法（Policy Gradients）、基于模型强化学习（Model Based RL）、时序差分学习（Temporal Different Learning）等。常见的深度学习类算法包含：深度信念网络（Deep Belief Machines）、深度卷积神经网络（Deep Convolutional Neural Networks）、深度递归神经网络（Deep Recurrent Neural Network）、分层时间记忆（Hierarchical Temporal Memory，HTM）、深度波尔兹曼机（Deep Boltzmann Machine，DBM）、栈式自动编码器（Stacked Autoencoder）、生成对抗网络（Generative Adversarial Networks）等。二、按照解决任务的不同来分类，粗略可以分为二分类算法（Two-class Classification）、多分类算法（Multi-class Classification）、回归算法（Regression）、聚类算法（Clustering）和异常检测（Anomaly Detection）五种。 1.二分类（Two-class Classification）（1）二分类支持向量机（Two-class SVM）：适用于数据特征较多、线性模型的场景。（2）二分类平均感知器（Two-class Average Perceptron）：适用于训练时间短、线性模型的场景。（3）二分类逻辑回归（Two-class Logistic Regression）：适用于训练时间短、线性模型的场景。（4）二分类贝叶斯点机（Two-class Bayes Point Machine）：适用于训练时间短、线性模型的场景。（5）二分类决策森林（Two-class Decision Forest）：适用于训练时间短、精准的场景。（6）二分类提升决策树（Two-class Boosted Decision Tree）：适用于训练时间短、精准度高、内存占用量大的场景（7）二分类决策丛林（Two-class Decision Jungle）：适用于训练时间短、精确度高、内存占用量小的场景。（8）二分类局部深度支持向量机（Two-class Locally Deep SVM）：适用于数据特征较多的场景。（9）二分类神经网络（Two-class Neural Network）：适用于精准度高、训练时间较长的场景。解决多分类问题通常适用三种解决方案：第一种，从数据集和适用方法入手，利用二分类器解决多分类问题；第二种，直接使用具备多分类能力的多分类器；第三种，将二分类器改进成为多分类器今儿解决多分类问题。常用的算法：（1）多分类逻辑回归（Multiclass Logistic Regression）：适用训练时间短、线性模型的场景。（2）多分类神经网络（Multiclass Neural Network）：适用于精准度高、训练时间较长的场景。（3）多分类决策森林（Multiclass Decision Forest）：适用于精准度高，训练时间短的场景。（4）多分类决策丛林（Multiclass Decision Jungle）：适用于精准度高，内存占用较小的场景。（5）“一对多”多分类（One-vs-all Multiclass）：取决于二分类器效果。回归回归问题通常被用来预测具体的数值而非分类。除了返回的结果不同，其他方法与分类问题类似。我们将定量输出，或者连续变量预测称为回归；将定性输出，或者离散变量预测称为分类。长巾的算法有：（1）排序回归（Ordinal Regression）：适用于对数据进行分类排序的场景。（2）泊松回归（Poission Regression）：适用于预测事件次数的场景。（3）快速森林分位数回归（Fast Forest Quantile Regression）：适用于预测分布的场景。（4）线性回归（Linear Regression）：适用于训练时间短、线性模型的场景。（5）贝叶斯线性回归（Bayesian Linear Regression）：适用于线性模型，训练数据量较少的场景。（6）神经网络回归（Neural Network Regression）：适用于精准度高、训练时间较长的场景。（7）决策森林回归（Decision Forest Regression）：适用于精准度高、训练时间短的场景。（8）提升决策树回归（Boosted Decision Tree Regression）：适用于精确度高、训练时间短、内存占用较大的场景。聚类聚类的目标是发现数据的潜在规律和结构。聚类通常被用做描述和衡量不同数据源间的相似性，并把数据源分类到不同的簇中。（1）层次聚类（Hierarchical Clustering）：适用于训练时间短、大数据量的场景。（2）K-means算法：适用于精准度高、训练时间短的场景。（3）模糊聚类FCM算法（Fuzzy C-means，FCM）：适用于精确度高、训练时间短的场景。（4）SOM神经网络（Self-organizing Feature Map，SOM）：适用于运行时间较长的场景。异常检测异常检测是指对数据中存在的不正常或非典型的分体进行检测和标志，有时也称为偏差检测。异常检测看起来和监督学习问题非常相似，都是分类问题。都是对样本的标签进行预测和判断，但是实际上两者的区别非常大，因为异常检测中的正样本（异常点）非常小。常用的算法有：（1）一分类支持向量机（One-class SVM）：适用于数据特征较多的场景。（2）基于PCA的异常检测（PCA-based Anomaly Detection）：适用于训练时间短的场景。常见的迁移学习类算法包含：归纳式迁移学习（Inductive Transfer Learning）、直推式迁移学习（Transductive Transfer Learning）、无监督式迁移学习（Unsupervised Transfer Learning）、传递式迁移学习（Transitive Transfer Learning）等。算法的适用场景：需要考虑的因素有：（1）数据量的大小、数据质量和数据本身的特点（2）机器学习要解决的具体业务场景中问题的本质是什么？（3）可以接受的计算时间是什么？（4）算法精度要求有多高？ ———————————————— 原文链接：

319 评论 11小时前发布

减肥大胃王

引言异常值检测与告警一直是工业界非常关注的问题，自动准确地检测出系统的异常值，不仅可以节约大量的人力物力，还能尽早发现系统的异常情况，挽回不必要的损失。个推也非常重视大数据中的异常值检测，例如在运维部门的流量管理业务中，个推很早便展开了对异常值检测的实践，也因此积累了较为丰富的经验。本文将从以下几个方面介绍异常值检测。 1、异常值检测研究背景 2、异常值检测方法原理 3、异常值检测应用实践异常值检测研究背景异常值，故名思议就是不同于正常值的值。在数学上，可以用离群点来表述，这样便可以将异常值检测问题转化为数学问题来求解。异常值检测在很多场景都有广泛的应用，比如： 1、流量监测互联网上某些服务器的访问量，可能具有周期性或趋势性：一般情况下都是相对平稳的，但是当受到某些黑客攻击后，其访问量可能发生显著的变化，及早发现这些异常变化对企业而言有着很好的预防告警作用。 2、金融风控正常账户中，用户的转账行为一般属于低频事件，但在某些金融案中，一些嫌犯的账户就可能会出现高频的转账行为，异常检测系统如果能发现这些异常行为，及时采取相关措施，则会规避不少损失。 3、机器故障检测一个运行中的流水线，可能会装有不同的传感器用来监测运行中的机器，这些传感器数据就反应了机器运行的状态，这些实时的监测数据具有数据量大、维度广的特点，用人工盯着看的话成本会非常高，高效的自动异常检测算法将能很好地解决这一问题。异常值检测方法原理本文主要将异常值检测方法分为两大类：一类是基于统计的异常值检测，另一类是基于模型的异常值检测。基于统计的方法基于模型的方法 1、基于统计的异常值检测方法常见的基于统计的异常值检测方法有以下2种，一种是基于3σ法则，一种是基于箱体图。3σ法则箱体图 3σ法则是指在样本服从正态分布时，一般可认为小于μ-3σ或者大于μ+3σ的样本值为异常样本，其中μ为样本均值，σ为样本标准差。在实际使用中，我们虽然不知道样本的真实分布，但只要真实分布与正太分布相差不是太大，该经验法则在大部分情况下便是适用的。箱体图也是一种比较常见的异常值检测方法，一般取所有样本的25%分位点Q1和75%分位点Q3，两者之间的距离为箱体的长度IQR，可认为小于或者大于Q3+的样本值为异常样本。基于统计的异常检测往往具有计算简单、有坚实的统计学基础等特点，但缺点也非常明显，例如需要大量的样本数据进行统计，难以对高维样本数据进行异常值检测等。 2、基于模型的异常值检测通常可将异常值检测看作是一个二分类问题，即将所有样本分为正常样本和异常样本，但这和常规的二分类问题又有所区别，常规的二分类一般要求正负样本是均衡的，如果正负样本不均匀的话，训练结果往往会不太好。但在异常值检测问题中，往往面临着正（正常值）负（异常值）样本不均匀的问题，异常值通常比正常值要少得多，因此需要对常规的二分类模型做一些改进。基于模型的异常值检测一般可分为有监督模型异常值检测和无监督模型异常值检测，比较典型的有监督模型如oneclassSVM、基于神经网络的自编码器等。 oneclassSVM就是在经典的SVM基础上改进而来，它用一个超球面替代了超平面，超球面以内的值为正常值，超球面以外的值为异常值。经典的SVM 1 基于模型的方法 2 基于神经网络的自编码器结构如下图所示。自编码器（AE）将正常样本用于模型训练，输入与输出之间的损失函数可采用常见的均方误差，因此检测过程中，当正常样本输入时，均方误差会较小，当异常样本输入时，均方误差会较大，设置合适的阈值便可将异常样本检测出来。但该方法也有缺点，就是对于训练样本比较相近的正常样本判别较好，但若正常样本与训练样本相差较大，则可能会导致模型误判。无监督模型的异常值检测是异常值检测中的主流方法，因为异常值的标注成本往往较高，另外异常值的产生往往无法预料，因此有些异常值可能在过去的样本中根本没有出现过，这将导致某些异常样本无法标注，这也是有监督模型的局限性所在。较为常见的无监督异常值检测模型有密度聚类（DBSCAN）、IsolationForest（IF）、RadomCutForest（RCF）等，其中DBSCAN是一种典型的无监督聚类方法，对某些类型的异常值检测也能起到不错的效果。该算法原理网上资料较多，本文不作详细介绍。 IF算法最早由南京大学人工智能学院院长周志华的团队提出，是一种非常高效的异常值检测方法，该方法不需要对样本数据做任何先验的假设，只需基于这样一个事实——异常值只是少数，并且它们具有与正常值非常不同的属性值。与随机森林由大量决策树组成一样，IsolationForest也由大量的树组成。IsolationForest中的树叫isolation tree，简称iTree。iTree树和决策树不太一样，其构建过程也比决策树简单，因为其中就是一个完全随机的过程。假设数据集有N条数据，构建一颗iTree时，从N条数据中均匀抽样(一般是无放回抽样)出n个样本出来，作为这颗树的训练样本。在样本中，随机选一个特征，并在这个特征的所有值范围内（最小值与最大值之间）随机选一个值，对样本进行二叉划分，将样本中小于该值的划分到节点的左边，大于等于该值的划分到节点的右边。这样得到了一个分裂条件和左、右两边的数据集，然后分别在左右两边的数据集上重复上面的过程，直至达到终止条件。终止条件有两个，一个是数据本身不可再分(只包括一个样本，或者全部样本相同)，另外一个是树的高度达到log2(n)。不同于决策树，iTree在算法里面已经限制了树的高度。不限制虽然也可行，但出于效率考虑，算法一般要求高度达到log2(n)深度即可。把所有的iTree树构建好了，就可以对测试数据进行预测了。预测的过程就是把测试数据在iTree树上沿对应的条件分支往下走，直到达到叶子节点，并记录这过程中经过的路径长度h(x)，即从根节点，穿过中间的节点，最后到达叶子节点，所走过的边的数量(path length)。最后，将h(x)带入公式，其中E(.)表示计算期望，c(n)表示当样本数量为n时，路径长度的平均值，从而便可计算出每条待测数据的异常分数s(Anomaly Score)。异常分数s具有如下性质： 1）如果分数s越接近1，则该样本是异常值的可能性越高； 2）如果分数s越接近0，则该样本是正常值的可能性越高； RCF算法与IF算法思想上是比较类似的，前者可以看成是在IF算法上做了一些改进。针对IF算法中没有考虑到的时间序列因素，RCF算法考虑了该因素，并且在数据样本采样策略上作出了一些改进，使得异常值检测相对IF算法变得更加准确和高效，并能更好地应用于流式数据检测。 IF算法 RCF算法上图展示了IF算法和RCF算法对于异常值检测的异同。我们可以看出原始数据中有两个突变异常数据值，对于后一个较大的突变异常值，IF算法和RCF算法都检测了出来，但对于前一个较小的突变异常值，IF算法没有检测出来，而RCF算法依然检测了出来，这意味着RCF有更好的异常值检测性能。异常值检测应用实践理论还需结合实践，下面我们将以某应用从至的日活变化情况为例，对异常值检测的实际应用场景予以介绍：从上图中可以看出该应用的日活存在着一些显著的异常值（比如红色圆圈部分），这些异常值可能由于活动促销或者更新迭代出现bug导致日活出现了比较明显的波动。下面分别用基于统计的方法和基于模型的方法对该日活序列数据进行异常值检测。基于3σ法则（基于统计） RCF算法（基于模型）从图中可以看出，对于较大的突变异常值，3σ法则和RCF算法都能较好地检测出来，但对于较小的突变异常值，RCF算法则要表现得更好。总结上文为大家讲解了异常值检测的方法原理以及应用实践。综合来看，异常值检测算法多种多样，每一种都有自己的优缺点和适用范围，很难直接判断哪一种异常检测算法是最佳的，具体在实战中，我们需要根据自身业务的特点，比如对计算量的要求、对异常值的容忍度等，选择合适的异常值检测算法。接下来，个推也会结合自身实践，在大数据异常检测方面不断深耕，继续优化算法模型在不同业务场景中的性能，持续为开发者们分享前沿的理念与最新的实践方案。

323 评论 12小时前发布

人工智能水论文异常检测

3个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序