- 博客(6)
- 收藏
- 关注
原创 2021-06-14
Linux,全称为GNU/Linux,是一种免费使用和自由传播的类UNIX操作系统,我们常说的Linux,指的是Linux内核,一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux现在已经是现代互联网体系中不可或缺的一部分了,可能你看不见它,但是它一直在你身边,各种嵌入式设备,如手表,机器人。还有广为人之的安卓。地球上大多数的服务器都是Linux操作系统。从航天到军事、从科研到金融、从手机到电脑,无处不在。Linux有以下众多特点:开源免费Linux是完全免费的操作系统,并
2021-06-14 23:49:51
109
原创 2021-05-23
1、概念高维数据异常检测:现实生活中,一般一个数据集含有上千或者上万个维度,由于维护较多,有些异常很难识别出来。所以需要针对高维使用合适的异常检测方法。1.1 高维异常检测的解决方案1)如何做**维度选择(或者降维)**使得其在异常检测算法上运行效果比较好2)集成学习,分割子空间常用的技巧/经验3)若是高维度但又稀疏呢?4)是否还有其它的解决方案1.2 方案介绍1)数据降维和维度选择**降维本质上是从一个维度空间映射到另一个维度空间,特征的多少没有减少,当然在映射的过程中特征值也会相应
2021-05-23 23:03:52
449
原创 2021-05-20
四、基于相似度的方法1、概述“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了
2021-05-20 23:24:59
848
原创 2021-05-19
线性回归线性回归是统计学中一个重要的应用,这个重要的应用往往是指通过一系列自变量去预测一个特殊因变量的值。在这种情况下,异常值是根据其他自变量对因变量的影响来定义的,而自变量之间相互关系中的异常则不那么重要。这里的异常点检测主要用于数据降噪,避免异常点的出现对模型性能的影响,因而这里关注的兴趣点主要是正常值(n)。而我们通常所说的异常检测中并不会对任何变量给与特殊对待,异常值的定义是基于基础数据点的整体分布,这里我们关注的兴趣点主要是异常值(o)。广义的回归建模只是一种工具,这种工具既可以用来进
2021-05-19 11:09:39
115
原创 2021-05-14
异常检验——基于统计学方法一、概述在我看来,基于统计学方法主要还是建立在小概率事件发生的基础之上,即依据训练集去进行分布的估计,如果出现样本数值的概率很小,那么该样本一般为异常值所以,利用统计学来对异常值进行检测,其主要的一点就是建立模型 这个模型可以是分布,并且大多数数据军服从这个分布。对于该种理论来说,所有方法大致可以分为两部分:参数方法:假定正常的数据对象被一个以参数Θ为参数的分布生成,那么我们可以借助数据训练出分布的具体形式,从而将样本生成的概率算出,若概率很小,那么认.
2021-05-14 23:29:17
141
原创 2021-05-11
异常检测定义:识别与正常数据不同的数据,与预期行为差异大的数据。 而在一般情况下,可以将异常检测堪称数据不平衡下的分类问题,我的理解就是,将数据分成两类,一类正常值一类是异常值,而异常值一般比较少,所以看作数据不平衡的分类问题。 注意一点,在异常检测中一般都是没有label的,换句话说 都是无监督学习,(如果这样是不是所有机器学习的无监督学习方法都可以运用到异常值检测中。。。)异常的类别: 点异常:少数个体实例 条件异常:在特定情境下个...
2021-05-11 22:45:35
118
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅