
数据挖掘
文章平均质量分 54
V丶Chao
记录自己的学习过程,时常反思,时常进步
展开
-
聚类算法汇总
20210108 -层次聚类训练后的分类器,无法用于后续的预测,可以添加一个新的分类器在其之上来实现,具体见How do I predict new data’s cluster after clustering training data?原创 2021-01-08 15:07:06 · 111 阅读 · 0 评论 -
HMM的学习
20201012 -0. 引言在学习《异常点检测》这本书的时候,在第十章的内容“离散数据的异常检测”记录中,涉及到隐马尔可夫模型(HMM)的学习,本篇文章具体记录HMM的学习过程。因为《异常点检测》书中关于这部分内容过于简短,本文主要学习文章[1]作为参考。1. HMM概述马尔可夫过程是一个随机过程,其未来状态和过去的状态有关,其中一阶的马尔可夫过程仅仅和上一时间的状态有关,如果状态空间是离散空间,该过程可以被称为马尔可夫链。P(Xn+1=x∣X1=x1,X2,=x2,...,Xn=xn)=P(X原创 2020-10-14 12:03:51 · 715 阅读 · 0 评论 -
数据挖掘 - 指纹匹配(以杀毒软件为例)
20201005 -0. 引言最近在研究与相似度比较相关的问题,转而想起来一些问题,例如说杀毒引擎中,他们的在进行匹配的时候都是采用什么算法来就进行匹配?是用数据库?!我觉得是可行的,如果是在进行全盘扫描的时候进行要进行匹配的数据是非常多的,这种情况下每次都用数据库进行匹配,是不是就太难受了?!0.5 中间插入(开源的杀毒软件)这里记录两个开源的杀毒软件。hanul93/kicomavCisco-Talos/clamav-devel1. 问题的引入还是利用杀毒引擎来距离,如果是直接使用类似这原创 2020-10-05 22:28:43 · 895 阅读 · 0 评论 -
海量数据挖掘 - 相似度比较的流式任务
20201005 -0. 引言本篇文章起源于我之前设计的一个针对恶意软件进行相似度比较的系统,但是为了快速完成系统原型,在来了新数据之后,为了计算相似度(两两相比),每次都是将全部数据都比较一遍,计算的数量就是n×(n−1)2\frac{n\times(n-1)}{2}2n×(n−1),这样计算的时间复杂度是C(n2)C(n^2)C(n2)。不过,当时采用了多线程的方法,同时通过队列缓存,然后单开一个队列进行批量插入,本质上也没有花费太久的时间,我记得在阿里云上运行这个系统时(通过定时任务保证持续运行原创 2020-10-05 15:00:50 · 757 阅读 · 0 评论 -
海量数据挖掘 - 读书笔记 - 第三章:寻找相似的项目
2020/07/21 -引言这个章节的内容如下:将相似度比较问题转化为集合论的问题,找到相似对也就是找到两个相交集非常大的集合文章相似度的比较过程中,可以利用shingling的方式,就是n-gram来形成集合minhash技术来将大量的数据集合压缩LSH哈希算法,来解决在数据量较大的时候,两两相比过程中计算复杂度过后高的问题解析相似度比较框架,将LSH方法应用于其他场景其实...原创 2020-07-24 10:19:27 · 900 阅读 · 0 评论 -
异常检测:从异常检测到PCA再到特征向量
20201001 -0. 引言最近的精力比较杂,当时仅仅是想学习《异常点检测》中的某个章节,但是因为遗忘的知识太多,导致又得学习更多的东西,比如线性代数的东西。很多概念在本科的时候都学过,所以捡起来也不是那么难,但是想马上得心应手的用起来,肯定是要花点功夫的。在最近看的几个主体中,我就发现了一个非常重要的概念,那就是特征向量。其实这个东西,本身没什么难点嘛,大一学习的线性代数,不就是几个公式,然后求一求就出来了。当时的应试场景下,这样肯定是没什么问题的,但是当真正需要利用这个东西的实际意义的时候,而不原创 2020-10-01 22:41:38 · 1602 阅读 · 0 评论 -
大规模数据的PCA降维
20200810 -0. 引言最近在做的文本可视化的内容,文本处理的方法是利用sklearn的CountVer+Tf-idf,这样处理数据之后,一方面数据的维度比较高,另一方面呢,本身这部分数据量也比较大。如果直接使用sklearn的pca进行降维,会很慢,而且pca也没有n_jobs来支持多线程工作。不过,我看到spark中已经支持的pca了,所以希望通过spark来实现这部分内容。1. spark的PCA算法1.1 官方使用示例>>> from pyspark.ml.lina原创 2020-08-10 16:41:52 · 2094 阅读 · 0 评论 -
海量数据挖掘 - 相似度比较问题 - 阅读文章的思考
(文章写于20200725 08:50)引言关于海量数据场景下,对于相似度的比较问题,我一直比较关注。最近也重新看了《massive dataset minning》的第三章节,其主要内容是通过minhash+LSH来实现相似度的比较;然后看到了另外的几篇博客,在这里来记录一下我的思考。思考相似度比较的问题应用非常广泛,比如文章的去重,文章是否是抄袭等。特别是我对恶意软件进行研究,需要进行相似度的比较,采用的指纹生成方式是ssdeep,但是为了找到相似的对,就必须对整个数据集对自身做笛卡尔积,然后原创 2020-07-25 09:32:29 · 1172 阅读 · 0 评论