
Data Mining
文章平均质量分 82
Sherryllll
这个作者很懒,什么都没留下…
展开
-
Mining Massive Datasets课程笔记(四)推荐系统
Recommender System 推荐系统由于网络电商的兴起,商品由实体中有限的个数到互联网时代无数商品可以购买,使得长尾理论被广泛关注。这些都是推荐系统兴起的条件。推荐有多种类型,我们关注的是对个体用户的定制推荐。Formal ModelUtility Matrix 上图是一个Utility Matrix的例子,A-D表示用户,矩阵中是用户对不同电影的评分。推荐系统的目标就是推测出空白处原创 2015-10-17 15:58:17 · 2236 阅读 · 0 评论 -
Mining Massive Datasets课程笔记(二)
Finding Similar Sets在数据挖掘中有一个很基础的问题就是寻找相似项。比如“查找具有相似爱好的用户“等应用的本质就是查找相似项。 这一节介绍的就是如何寻找相似项。采用的相似度衡量概念为“Jaccard 相似度”,具体的意思在后文介绍,其主要思想就是两个集合的交集所占的比例越大则认为两者越相似。 对于数据量非常庞大的情况来讲逐一计算相似度肯定是不现实的,联系hash表的(可以快速寻原创 2015-10-01 01:02:00 · 1898 阅读 · 0 评论 -
Mining Massive Datasets课程笔记(一)
MapReduce and PageRank一、Distributed File System (分布式文件系统)why do we need mapreduce? 传统的数据挖掘方式(single node architecture)在处理海量数据(Like 200TB)时,由于CPU和disk之间的bandwidth限制以及单个CPU的处理能力限制,使得数据处理的时间成本非常高,从而有了多个原创 2015-09-19 22:10:00 · 3075 阅读 · 0 评论 -
Mining Massive Datasets 课程笔记(四)降维
Dimensionality Reduction 降维若原特征空间是D维的,现希望降至d维的。降维的概念相信大家都已经有了解了,就不介绍了,首先从为什么需要降维理解其必要性,然后讲解具体实现。 在这里先简单介绍下矩阵的秩矩阵的秩把矩阵看成线性映射那么秩就是象空间的的维数。通俗一点说,如果把矩阵看成一个个行向量或者列向量,秩就是这些行向量或者列向量的秩,也就是极大无关组中所含向量的个数。原创 2015-10-23 16:32:20 · 2417 阅读 · 0 评论 -
Mining Massive Datasets课程笔记(五)聚类算法
ClusteringOverview of methods首先我们说几个典型应用,了解为什么需要聚类算法,然后介绍下聚类的集中方法,具体的细节在后面的小节中详细说。 但是在实际应用中,聚类问题并没有图中这么简单,往往有大量的数据,且数据时高维的(10 or 10,000dimensions)处理起来比较复杂,而且在高维空间中点间的距离看起来都是近似的。 Some Clustering App原创 2015-10-25 16:14:26 · 9326 阅读 · 3 评论 -
Mining Massive Datasets课程笔记(三)
Communities in Social networksCommunity Detection in GraphsThe Affiliation Graph Model(AGM)Plan: 1. 由给定的模型生成网络 2. 对给定的网络找到“best”modelModel of network Goal:Define a model that can generate networks原创 2015-10-12 00:23:42 · 4383 阅读 · 1 评论 -
Mining Massive Datasets课程笔记(五)Web广告
Online Algorithm通常的算法工作流程是,输入数据全部准备好了,我们能随时访问到所有的数据然后进行处理,从而输出结果,这类算法称之为”离线“算法(Off-line) 但是,有时候我们并不能获取全部数据,或者数据太大且有时间要求,需要在当前数据达到时作出应答,如前面课程中的流数据。这类算法称为”在线“算法(Online),在线算法与data Stream Model有些类似但并不完全相同原创 2015-10-27 00:44:42 · 2270 阅读 · 0 评论