
数据挖掘
文章平均质量分 68
数据铁人
这个作者很懒,什么都没留下…
展开
-
数据挖掘(异常检测)task5-高维异常检测
高维异常检测随机森林是最流行和功能最强大的机器学习算法之一介绍用于估计样本统计量的自举方法。介绍Bagging,可从单个训练数据集中创建多个不同的模型。介绍随机森林算法对Bagging进行了一些细微调整,并产生了非常强大的分类器。bootstrap介绍bagging前,先介绍bootstrap,是一种强大的统计方法,用于从数据样本中估计数量。如果数量是描述性统计量(例如平均值或标准偏差),则最容易理解。假设我们有一个100个值(x)的样本,并且希望获得样本平均值的估计值。我们可以直接从样本中原创 2021-05-21 15:00:44 · 292 阅读 · 0 评论 -
数据挖掘(异常检测)task4-基于相似度的方法
基于相似度的方法这一部分的学习,我看了相关的论文和Outlier Analysis中的介绍,总结是专门为数据分散密度不一样进行分析的,这种数据用线性模型等方法不容易计算出来。如图,这种分散不一样的数据,也没有相对应的趋势LOF算法特点LOF算法是一种非监督算法LOF算法是一种基于密度的算法LOF算法适合于对不同密度的数据的异常检测LOF论文定义论文中有很多的解释和公式,其实主要说的是如何通过识别点与点之间的距离,分布点的密度来进行测算是否异常样本点1、d ( p , o ) d(p, o)原创 2021-05-20 18:08:22 · 147 阅读 · 0 评论 -
数据挖掘(异常检测)task3-线性模型
线性模型线性回归模型在线性回归中,使用线性方程组对数据中的观测值进行建模。具体来说,数据中的不同维度使用一组线性方程组相互关联,其中系数需要以数据驱动的方式学习。由于观测值的数目通常比数据的维数大得多,这个方程组是一个过定over-determined的方程组,不能精确求解(即零误差)。因此,这些模型学习系数,使数据点的偏差与线性模型预测的值的平方误差最小化。回归分析使时间序列分析中的一个常见场景。回归分析需要从一组自变量(自变量也称为解释变量)中学习特定因变量的值。这是一个具有上下文数据类型的共原创 2021-05-16 23:45:44 · 1729 阅读 · 0 评论 -
数据挖掘(异常检测)task2
异常检测——基于统计学的方法1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假原创 2021-05-14 08:11:42 · 252 阅读 · 0 评论 -
数据挖掘(异常检测)task1
1、什么是异常检测1.1 异常的类别点异常(point anomalies)指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;条件异常(conditional anomalies),又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;群体异常(group anomalies)指的是在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,在入侵或欺诈检测等应用中,离群点原创 2021-05-11 11:43:20 · 675 阅读 · 0 评论