
异常检测
文章平均质量分 80
用于记录阅读《异常点检测》过程。
V丶Chao
记录自己的学习过程,时常反思,时常进步
展开
-
Mahalanobis距离的计算
20210306 -0.引言通过scipy的距离库[1],可以方便的计算向量空间中两个点的距离,例如欧式距离,cos距离等,使用方法可以见[2]。而这个函数cdist在计算该距离的时候,通过集中方法,结果上却稍有不同,在这里记录一下,主要研究在数据量比较大的时候如何计算,如果仅仅是两个点的距离,直接使用from scipy.spatial.distance import mahalanobis即可,这要是为什么要引入cdist的原因。1. cdist如果是使用cdist的话,使用方法跟欧式距离没有什原创 2021-03-06 21:44:10 · 770 阅读 · 0 评论 -
异常检测 - OCSVM与混合高斯分布
20200924 -0. 引言前面的文章《孤立森林的简要记录》中描述了孤立森林的简单原理,而且之前也简单测试过这种方法的性能,只不过最终没有得到非常好的效果。本篇文章中记录一下另外两种方法。一般来说,异常检测是一种无监督的学习方法,当然也可以转化为监督学习,但是我个人感觉转化的方式不好,原因主要是你需要将异常进行标记,但是异常应该很难标记,特别是数量比较少的情况下。所以本文记录两种无监督的方法:一类SVM和混合高斯分布。1. OCSVM(一类SVM)1.1 基本原理关于具体原理部分可以参考文章[原创 2020-09-24 09:32:47 · 2036 阅读 · 0 评论 -
异常检测:从异常检测到PCA再到特征向量
20201001 -0. 引言最近的精力比较杂,当时仅仅是想学习《异常点检测》中的某个章节,但是因为遗忘的知识太多,导致又得学习更多的东西,比如线性代数的东西。很多概念在本科的时候都学过,所以捡起来也不是那么难,但是想马上得心应手的用起来,肯定是要花点功夫的。在最近看的几个主体中,我就发现了一个非常重要的概念,那就是特征向量。其实这个东西,本身没什么难点嘛,大一学习的线性代数,不就是几个公式,然后求一求就出来了。当时的应试场景下,这样肯定是没什么问题的,但是当真正需要利用这个东西的实际意义的时候,而不原创 2020-10-01 22:41:38 · 1602 阅读 · 0 评论 -
HMM的学习
20201012 -0. 引言在学习《异常点检测》这本书的时候,在第十章的内容“离散数据的异常检测”记录中,涉及到隐马尔可夫模型(HMM)的学习,本篇文章具体记录HMM的学习过程。因为《异常点检测》书中关于这部分内容过于简短,本文主要学习文章[1]作为参考。1. HMM概述马尔可夫过程是一个随机过程,其未来状态和过去的状态有关,其中一阶的马尔可夫过程仅仅和上一时间的状态有关,如果状态空间是离散空间,该过程可以被称为马尔可夫链。P(Xn+1=x∣X1=x1,X2,=x2,...,Xn=xn)=P(X原创 2020-10-14 12:03:51 · 715 阅读 · 0 评论 -
思考:HMM模型怎么应用到安全领域中?
20201011 -本篇文章是给出一个引子,之前的时候在一些文章中看到过他们采用HMM的方式来进行安全数据中的异常检测,如果是那种类似用户行为的方式,我还能理解,但是我记得我看到过一篇文章说的是利用HMM进行web请求的建模,然后识别恶意的请求。但是这种形式应该如何建模呢?或者说,怎么将这些内容利用HMM的形式给表达出来呢?虽然我知道可能隐藏的内部变量是通过异常和正常来区分,但是具体来实现还是不是非常明确。这个是挺值得思考的过程,在以往机器学习的经验中,都是利用那种关系型数据,或者是直接利用深度学习就原创 2020-10-11 21:17:49 · 516 阅读 · 0 评论 -
先验概率及后验概率等解释
20201010 -0. 引言在学习统计学的时候,在概率估计的部分,经常会遇到最大似然估计,最大后验估计等名词,这些似然和后验,都跟贝叶斯准则中的一些名词定义有关。这里参考书籍《Think Bayes》这部书,来记录这些名词。1. 由糖果例子来解释名词用最简单的一句话来说,贝叶斯准则就是一个公式,这个公式在考试的时候只要你会用,把问题形式化之后,甚至于有些题目直接给你了要求解的最终目标,都不用你对问题进行分析,直接套用公式就行了。但在实际问题的处理中,还是需要对问题的深入理解。考试考了高分,不代表解原创 2020-10-10 22:49:27 · 1768 阅读 · 1 评论 -
《异常点检测》 - 第十章阅读记录 - 离散序列的异常点检测
20201006 -本文主要作为《异常点检测》的第十章的内容记录,文章按照顺序的方式来进行记录,想到什么记录什么,暂时可能没有条例。1. 基础概念记录1.1 离散数据的定义离散数据与连续数据有所不同,离散数据在实际中主要有两种。基于时间的离散数据,例如用户操作序列,这种在时间上有一个递进的关系基于位置的离散数据,例如生物数据,这种在位置上有所区分两种数据的主要区别就是在于他们不同位置的数据主要是按照是什么区分,是时间,还是位置。但本质上都是带有次序的字符序列。1.2 离散数据的一个难点原创 2020-10-06 22:26:53 · 1153 阅读 · 0 评论