
数据挖掘
皮果提
这个作者很懒,什么都没留下…
展开
-
几种防止对数据“过分”挖掘的方法
1. 对数据增加“噪音” 这是美国统计局所采用方法。它的基本思想是通过对数据值进行修改,使对这些被修改了的数据所进行的数据挖掘难以得到有用的结果。2. 消除数据中的附加信息 一些数据由于其产生方式等原因往往具有一些隐含的其它信息,如果某些用户知道这些数据所含额外信息的规律,就可以对其进行利用,得到许多其它信息。例如,美国公民的社会安全号码(socia原创 2013-08-07 23:07:52 · 2086 阅读 · 0 评论 -
聚类算法初探(六)OPTICS
最近由于工作需要,对聚类算法做了一些相关的调研。现将搜集到的资料和自己对算法的一些理解整理如下,供大家参考。另外在算法代码方面,我也做了一些实现(包括串行和并行),欢迎感兴趣的朋友探讨和交流。第一章 引言第二章 预备知识第三章 直接聚类法第四章 K-means 第五章 DBSCAN第六章 OPTICS原创 2013-08-20 01:00:17 · 49123 阅读 · 8 评论 -
聚类算法初探(八)数据尺度化问题
聚类算法的数据预处理过程中, 是否需要进行尺度化的一点探讨.原创 2013-08-29 08:22:54 · 8195 阅读 · 5 评论 -
聚类算法初探(三)直接聚类法
最近由于工作需要,对聚类算法做了一些相关的调研。现将搜集到的资料和自己对算法的一些理解整理如下,供大家参考。另外在算法代码方面,我也做了一些实现(包括串行和并行),欢迎感兴趣的朋友探讨和交流。第一章 引言第二章 预备知识第三章 直接聚类法第四章 K-means 第五章 DBSCAN第六章 OPTICS原创 2013-08-20 00:57:45 · 16236 阅读 · 0 评论 -
聚类算法初探(二)预备知识
最近由于工作需要,对聚类算法做了一些相关的调研。现将搜集到的资料和自己对算法的一些理解整理如下,供大家参考。另外在算法代码方面,我也做了一些实现(包括串行和并行),欢迎感兴趣的朋友探讨和交流。第一章 引言第二章 预备知识第三章 直接聚类法第四章 K-means 第五章 DBSCAN第六章 OPTICS原创 2013-08-20 00:57:28 · 9753 阅读 · 2 评论 -
聚类分析初探(一)引言
最近由于工作需要,对聚类算法做了一些相关的调研。现将搜集到的资料和自己对算法的一些理解整理如下,供大家参考。另外在算法代码方面,我也做了一些实现(包括串行和并行),欢迎感兴趣的朋友探讨和交流。第一章 引言第二章 预备知识第三章 直接聚类法第四章 K-means 第五章 DBSCAN第六章 OPTICS原创 2013-08-20 00:56:56 · 16417 阅读 · 1 评论 -
聚类算法初探(四)K-means
最近由于工作需要,对聚类算法做了一些相关的调研。现将搜集到的资料和自己对算法的一些理解整理如下,供大家参考。另外在算法代码方面,我也做了一些实现(包括串行和并行),欢迎感兴趣的朋友探讨和交流。第一章 引言第二章 预备知识第三章 直接聚类法第四章 K-means 第五章 DBSCAN第六章 OPTICS原创 2013-08-20 00:59:06 · 13073 阅读 · 1 评论 -
聚类算法初探(五)DBSCAN
最近由于工作需要,对聚类算法做了一些相关的调研。现将搜集到的资料和自己对算法的一些理解整理如下,供大家参考。另外在算法代码方面,我也做了一些实现(包括串行和并行),欢迎感兴趣的朋友探讨和交流。第一章 引言第二章 预备知识第三章 直接聚类法第四章 K-means 第五章 DBSCAN第六章 OPTICS原创 2013-08-19 16:59:42 · 67955 阅读 · 14 评论 -
聚类算法初探(七)聚类分析的效果评测
目前聚类算法种类众多,使得人们在实际应用中难于选择,因此,,对聚类分析的结果进行评价是关键的。假如有一个专门针对聚类效果的有效评价机制,那么,我们就可以对众多算法进行比较分析,从而选择最合适的聚类分析算法。本文摘自中国科学院计算技术研究所周昭涛的硕士论文《文本聚类分析效果评价及文本表示研究》的第三章,算是一则读书笔记吧,希望对大家有点帮助。原创 2013-08-26 00:27:49 · 36391 阅读 · 4 评论 -
逻辑回归详谈
本文从数学上对逻辑回归做了一个详尽的分析,其中包括回归分析、最小二乘法、sigmoid 函数以及梯度下降等知识点的介绍。原创 2013-09-01 22:03:56 · 7253 阅读 · 0 评论 -
发表在 Science 上的一种新聚类算法
今年 6 月份,Alex Rodriguez 和 Alessandro Laio 在 Science 上发表了一篇名为《Clustering by fast search and find of density peaks》的文章,为聚类算法的设计提供了一种新的思路。虽然文章出来后遭到了众多读者的质疑,但整体而言,新聚类算法的基本思想很新颖,且简单明快,值得学习。这个新聚类算法的核心思想在于对聚类中心的刻画上,本文将对该算法的原理进行详细介绍,并对其中的若干细节展开讨论。原创 2014-08-29 17:39:08 · 72871 阅读 · 59 评论 -
Factorization Machines 学习笔记(四)学习算法
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。原创 2014-10-28 10:22:34 · 36094 阅读 · 9 评论 -
Factorization Machines 学习笔记(一)预测任务
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD) 法和交替最小二乘法(ALS)法进行详细推导。原创 2014-10-28 10:21:55 · 30993 阅读 · 2 评论 -
Factorization Machines 学习笔记(二)模型方程
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。原创 2014-10-28 10:22:16 · 21834 阅读 · 7 评论 -
Factorization Machines 学习笔记(三)回归和分类
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。原创 2014-10-28 10:22:16 · 13270 阅读 · 1 评论 -
最大熵学习笔记(五)最优化算法
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:27:49 · 18172 阅读 · 8 评论 -
Community Detection 算法
社区发现(Community Detection)算法用来发现网络中的社区结构,也可以视为一种广义的聚类算法。原创 2013-07-10 08:19:40 · 44325 阅读 · 129 评论 -
最大熵学习笔记(六)优缺点分析
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:28:01 · 14123 阅读 · 5 评论 -
最大熵学习笔记(一)预备知识
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:26:51 · 23027 阅读 · 6 评论 -
最大熵学习笔记(零)目录和引言
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:26:19 · 14559 阅读 · 3 评论 -
召回率和精度
召回率(Recall)和精度(Precise)是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中召回率是是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。 从一个大规模数据集合中检索文档时,可把文档分成四组:1. 系统检索到的相关文档(A)2原创 2013-09-01 23:47:09 · 5669 阅读 · 0 评论 -
迁移学习
作者: 薛贵荣 在传统的机器学习的框架下,学习的任务就是在给定充分训练数据的基础上学习一个分类模型,然后利用这个学习到的模型对测试文档进行分类与预测。然而,机器学习算法在当前互联网应用研究中存在一个关键问题,即一些新出现的领域中大量训练数据非常稀缺。随着互联网的高速发展,Web 应用领域的发展非常快速,大量新的领域不断涌现,从传统的新闻,到网页,到图片,再到博客、播客等。首转载 2013-11-04 10:51:56 · 3914 阅读 · 0 评论 -
微博营销中的 KOL 分析
[1] http://wiki.mbalib.com/wiki/意见领袖[2] http://www.dowom.cn/reportdetail1540.html作者: peghoty 出处: http://blog.youkuaiyun.com/peghoty/article/details/9326211 欢迎转载/分享, 但请务必声明文章出处.原创 2013-07-14 20:41:36 · 7847 阅读 · 1 评论 -
相关性分析方法
作者: peghoty 出处: http://blog.youkuaiyun.com/peghoty/article/details/9337515 欢迎转载/分享, 但请务必声明文章出处.原创 2013-08-18 23:49:09 · 22728 阅读 · 1 评论 -
基于权值的微博用户采样算法研究
作者:peghoty 出处: http://blog.youkuaiyun.com/peghoty/article/details/9286905 欢迎转载/分享, 但请声明文章出处.原创 2013-06-12 16:02:10 · 5441 阅读 · 1 评论 -
极限学习机简介
在 Deep Learning 大行其道热度不减时,有机会接触到了极限学习机(Extreme Learning Machine,ELM)。这个算法是南洋理工大学的黄广斌教授提出来的,idea 始于 2003 年,2004 年正式发表文章。这种算法是针对 SLFNs (即含单个隐藏层的前馈型神经网络)的监督型学习算法,其主要思想是:输入层与隐藏层之间的权值参数,以及隐藏层上的偏置向量参数是 on原创 2013-07-09 08:23:57 · 25464 阅读 · 15 评论 -
LDA-线性判别分析(三)推广到 Multi-classes 情形
本来是要调研 Latent Dirichlet Allocation 的那个 LDA 的, 没想到查到很多关于 Linear Discriminant Analysis 这个 LDA 的资料。初步看了看,觉得数学味挺浓,一时引起了很大的兴趣;再看看,就有整理一份资料的冲动了。网上查到的相关文章大都写得不是很详细,而且在概念和记号等方面也比较混乱,因此,在整理本文时,我有意识地牵了一根主线,想让读者原创 2013-09-26 10:48:27 · 7318 阅读 · 3 评论 -
LDA-线性判别分析(二)Two-classes 情形的数学推导
本来是要调研 Latent Dirichlet Allocation 的那个 LDA 的, 没想到查到很多关于 Linear Discriminant Analysis 这个 LDA 的资料。初步看了看,觉得数学味挺浓,一时引起了很大的兴趣;再看看,就有整理一份资料的冲动了。网上查到的相关文章大都写得不是很详细,而且在概念和记号等方面也比较混乱,因此,在整理本文时,我有意识地牵了一根主线,想让读者原创 2013-09-26 10:47:29 · 10139 阅读 · 4 评论 -
LDA-线性判别分析(四)其他几个相关问题
本来是要调研 Latent Dirichlet Allocation 的那个 LDA 的, 没想到查到很多关于 Linear Discriminant Analysis 这个 LDA 的资料。初步看了看,觉得数学味挺浓,一时引起了很大的兴趣;再看看,就有整理一份资料的冲动了。网上查到的相关文章大都写得不是很详细,而且在概念和记号等方面也比较混乱,因此,在整理本文时,我有意识地牵了一根主线,想让读者原创 2013-09-26 10:48:35 · 3784 阅读 · 0 评论 -
LDA-线性判别分析(一)预备知识
本来是要调研 Latent Dirichlet Allocation 的那个 LDA 的, 没想到查到很多关于 Linear Discriminant Analysis 这个 LDA 的资料。初步看了看,觉得数学味挺浓,一时引起了很大的兴趣;再看看,就有整理一份资料的冲动了。网上查到的相关文章大都写得不是很详细,而且在概念和记号等方面也比较混乱,因此,在整理本文时,我有意识地牵了一根主线,想让读者原创 2013-09-26 10:47:16 · 9995 阅读 · 0 评论 -
最大熵学习笔记(三)最大熵模型
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:27:26 · 41933 阅读 · 10 评论 -
最大熵学习笔记(二)最大熵原理
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:27:09 · 21091 阅读 · 4 评论 -
最大熵学习笔记(四)模型求解
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:27:39 · 17035 阅读 · 14 评论 -
什么是社区发现?
如果你仔细观察,你会发现,我们的生活中存在着各种各样的网络,如科研合作网络、演员合作网络、城市交通网络、电力网、以及像 QQ、微博、微信这样的社交网络。这些网络有什么特点呢?我们以大家最熟悉的社交网络来看看。原创 2014-11-21 14:57:43 · 34780 阅读 · 10 评论