程序地带

基于统计学方法


异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区 域中的对象,把它们作为异常点。----相当于假设检验 参数方法假定正常的数据对象被一个以 为参数的参数分布产生。该参数分布的概率密度函数 给 出对象 被该分布产生的概率。该值越小, 越可能是异常点。 非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。非参数方法通常假定参数的个数和 性质都是灵活的,不预先确定(所以非参数方法并不是说模型是完全无参的,完全无参的情况下从数据 学习模型是不可能的)。 如果数据点超过范围 :3sigma原则,那么这些点很有可能是异常点。 利用数据集的上下四分位数(Q1和Q3)、中点等形成。异常点常被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的那些数据。


在这里插入图片描述 做箱线图观测! 许多一元异常点检测方法都可以扩充,用来处理多元 数据。其核心思想是把多元异常点检测任务转换成一元异常点检测问题。求出每一维度的均值和标准差。如果特征之间有相关性,就要用到多元高斯分布。


非参数方法对数据做较少假定,因而在更多情况下都可以使用。 步骤1:构造直方图 步骤2:检测异常点 使用直方图作为异常点检测的非参数模型的一个缺点是,很难选择一个合适的箱尺寸。一方面,如果箱 尺寸太小,则许多正常对象都会落入空的或稀疏的箱中,因而被误识别为异常点。另一方面,如果箱尺 寸太大,则异常点对象可能渗入某些频繁的箱中,因而“假扮”成正常的。


HBOS全名为:Histogram-based Outlier Score。它是一种单变量方法的组合,不能对特征之间的依赖 关系进行建模,但是计算速度较快,对大数据集友好。其基本假设是数据集的每个维度相互独立。然后 对每个维度进行区间(bin)划分,区间的密度越高,异常评分越低。


在这里插入图片描述 ----该公式类似于极大似然估计的推导过程


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_49978528/article/details/112689317

随机推荐

2021-01-21 大数据课程笔记 day1

@R星校长内存的访问效率是硬盘的10万倍Zoo动物园Keeper管理者因为hadoop大象pig小猪都是他们开发的,再有一些这样的起名的软件,我们就成动物园了&#x...

Rich Dad 阅读(364)

IoTDB数据类型与编码方式

数据类型IoTDB总共支持六种数据类型BOOLEAN(布尔值)INT32(整数)INT64(长整数)FLOAT&#x...

树欲静而风不止 阅读(763)

OpenGl窗口大小定位相关

前言在绘制窗口内容的时候,关于窗口的大小和绘制内容的大小事我们关注的一个重点。一般情况下这里有三个层次的初始化,分别是窗口大小,视窗大小,和绘制...

白嫩豆腐 阅读(941)

JavaScript的原型和继承

剖析JS的原型链和继承构造函数、原型和继承点击超链接...

神秘的小鲫鱼 阅读(615)

ELK Stack 日志平台性能优化实践

性能分析服务器硬件Linux:1cpu4GRAM假设每条日志250Byte。分析:①logstash-Linux:1cpu4GRAM每秒500条日志ÿ...

寰宇001 阅读(749)

2021年华为认证考试费用是多少

有一些朋友打算在2021年参加华为网络工程师这方面的考试,所以想知道这方面的考试费用是多少,自己好有一个准备,那么网络工程师成长日记,作者小编来...

20004 阅读(231)

JS的继承

1.原型链继承特点:子类的实例即是本身也是父类父类新增的原型方法和属性子类对象都可以访问缺点:子类添加属性和方法必须在new之后或者直接写在子类里面不能实现多继承原型链继承...

进击的小野马 阅读(830)

python切片操作详解

任何一个切片操作转化为一个基本表达式:object[start_index:end_index:step]start_index:起始点下标,若空为起始端点end_index:终止点下标...

热衷开源的Boy 阅读(602)