
数据分析
文章平均质量分 67
宇毅
初级工程师一枚,一直以来都是看别人的技术博客学习,少走了不少弯路。受人恩惠颇多,而后也想回馈他人,所以把自己经历分享下,也希望我写的东西也能让他人有所收获。
展开
-
频繁项集关联规则挖掘
什么是关联分析关联分析是数据挖掘领域常用的一类算法,主要用于发现隐藏在大型数据集中有意义的联系。举一个大家最耳熟能详的例子,就是尿布和啤酒,表示成关联规则的形式就是{尿壶} —>{啤酒}。这就是使用关联分析方法所得到的结果,而关联分析所得到的结果,我们可以用关联规则或者频繁项集的形式表示。在进行关联分析时,我们常常会遇到这样两个问题:A. 从大型数据集中发现模式一般来说需要在计算...原创 2016-03-01 16:26:34 · 11136 阅读 · 1 评论 -
基于Java实现K-means算法
K-means java版代码实现原创 2016-12-02 15:56:48 · 5106 阅读 · 0 评论 -
缺失数据处理-插值法
在数据挖掘中,原始海量的数据中存在着大量不完整、不一致、有异常、偏离点的数据。这些问题数据轻则影响数据挖掘执行效率,重则影响执行结果。因此数据预处理工作必不可少,而其中常见工作的就是数据集的缺失值处理。数据缺失值处理可分两类。一类是删除缺失数据,一类是进行数据插补。本文是对数据插补的介绍。原创 2017-06-01 14:48:59 · 60028 阅读 · 3 评论 -
数据归一化和相似性
数据分析学习小结两种常用的归一化方法参考:http://www.cnblogs.com/chaosimple/archive/2013/07/31/3227271.html数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数原创 2015-11-16 00:34:58 · 7433 阅读 · 0 评论 -
异常值检测-滑动均值实现智能告警
当前的分析对象是一段 timestamp-value 的时间序列,该时间序列可能是cpu使用率、磁盘使用率等数据。我们在计算前,首先需要判断的是什么样的值是异常值。基于移动平均的方法,其朴素思想是在直观上来看图形,认为近一段时间内的数据值,有着相似的走向趋势。因此判断一个值是否是异常值,可通过判断该值是否对数据趋势造成了破坏,来得出结论。原创 2017-05-11 15:52:57 · 8533 阅读 · 0 评论 -
词语向量化-word2vec简介和使用
前言最初听闻word2vec还在读研了。当时挺感兴趣的,不过一直忙于毕业事项,没好好研究下,对word2vec也只是概念上的了解,直到这两天有空才能专门学习下这方面的知识。知识不经过整理很容易忘记,尤其像这种算法类的,一次性理解透彻~~至少对我这水平的来说还是比较困难,必须经过多个阶段学习才行,每个阶段都做好总结,这样有利于下个阶段的学习。本文主要从我的学习经历介绍下word2vec,还是以实践为主原创 2017-06-09 02:39:47 · 31965 阅读 · 6 评论 -
时间序列相似性度量-DTW
1. 背景最近项目中遇到求解时间序列相似性问题,这里序列也可以看成向量。在传统算法中,可以用余弦相似度和pearson相关系数来描述两个序列的相似度。但是时间序列比较特殊,可能存在两个问题:两段时间序列长度不同。如何求相似度?一个序列是另一个序列平移之后得到的。如何求相似距离?第一个问题,导致了根本不能用余弦相似度和pearson相关系数来求解相似。第二个问题,导致了也不能基于欧式距离...原创 2019-01-25 16:44:59 · 39224 阅读 · 28 评论