异常检测
编辑在数据分析中,异常检测(也被称为离群点检测,有时也被称为新颖性检测)通常被理解为识别罕见的项目、事件或观察结果,这些项目、事件或观察结果明显偏离大多数数据,不符合定义好的正常行为的概念。这样的例子可能会让人怀疑是由不同的机制产生的,或者看起来与该组数据的其余部分不一致。异常检测在许多领域都有应用,包括网络安全、医学、机器视觉、统计学、神经科学、执法和金融欺诈等,仅举几例。异常现象最初被搜索,以明确拒绝或遗漏数据,以帮助统计分析,例如计算平均值或标准偏差。它们也被移除,以更好地预测模型,如线性回归,最近,它们的移除也有助于机器学习算法的性能。然而,在许多应用中,异常点本身是有意义的,是整个数据集中最希望得到的观察结果,需要将其与噪声或不相关的离群点区分开。存在三大类异常检测技术。有监督的异常检测技术需要一个已经被标记为正常和异常的数据集,并涉及训练一个分类器。然而,这种方法很少用于异常检测,因为一般来说无法获得标记的数据,而且类的本质是不平衡的。半监督的异常检测技术假定数据的某些部分被标记了。这可能是正常或异常数据的任何组合,但更常见的是,该技术从给定的正常训练数据集中构建一个代表正常行为的模型,然后测试由该模型产生的测试实例的可能性。无监督的异常检测技术假定数据是无标签的,并且由于其更广泛和相关的应用,到目前为止是最常用的。
异常检测的定义
编辑在统计学和计算机科学界,已经有许多人尝试定义异常现象。最普遍的包括。异常值是指与其他观测值相差甚远的观测值,以至于让人怀疑它是由不同的机制产生的。异常值是指在数据集中极少出现的实例或数据集合,其特征与大多数数据有明显的不同。异常值是指与该数据集的其余部分似乎不一致的观测值(或观测值的子集)。异常值是指在特征的多维空间中与其他点相对遥远的一个点或点集合。异常点是数据中不符合定义好的正常行为概念的模式。让T是单变量高斯分布中的观测值,O是T中的一个点。当且仅当O是一个异常点时,O的z分数大于预先选择的阈值。应用异常检测适用于大量和多种领域,是无监督机器学习的一个重要子领域。因此,它在网络安全入侵检测、欺诈检测、故障检测、系统健康监测、传感器网络中的事件检测、检测生态系统的干扰、使用机器视觉的图像缺陷检测、医疗诊断和执法方面都有应用。
异常检测是由DorothyDenning在1986年为入侵检测系统(IDS)提出的。IDS的异常检测通常是通过阈值和统计学完成的,但也可以通过软计算和归纳学习完成。1999年提出的统计类型包括用户、工作站、网络、远程主机、用户组以及基于频率、平均值、方差、协方差和标准偏差的程序的概况。与入侵检测中的异常检测相对应的是误用检测。它经常被用于预处理,以从数据集中删除异常数据。这样做的原因有很多。去除异常数据后,平均数和标准差等数据的统计数字更加准确,而且数据的可视化也可以得到改善。在监督学习中,从数据集中去除异常数据往往会使统计学上的准确度大幅提高。异常数据也常常是要找到的数据中最重要的观察点,比如在入侵检测或检测医疗图像中的异常情况。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175451/