
数据挖掘
文章平均质量分 50
pf1492536
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
矩阵特征值
矩阵特征值 设 A 是n阶方阵,如果存在数m和非零n维列向量 x,使得 Ax=mx 成立,则称 m 是A的一个特征值(characteristic value)或本征值(eigenvalue)。非零n维列向量x称为矩阵A的属于(对应于)特征值m的特征向量或本征向转载 2011-09-20 14:58:20 · 1316 阅读 · 0 评论 -
Kdd Cup 2013 总结2
原创 2013-06-27 16:20:40 · 3468 阅读 · 0 评论 -
百度电影推荐比赛总结
原创 2013-06-27 16:13:30 · 1997 阅读 · 0 评论 -
Kdd Cup 2013 track1总结
比赛地址:http://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-challenge大概也折腾了一个多月吧,从最开始的兴奋到后面的折腾不动,失望,最后来总结一下。开始阶段完全小白,最好入手的办法用着basicline的代码,添加一两个新的特征,最后就折腾一下模型,这里说一下自己用的特征。1. 字符串距原创 2013-06-26 23:55:42 · 4436 阅读 · 2 评论 -
特征选择(feature selection)
最近在做kdd cup 2013,特征倒是能yy出来不少,但是加到GBDT里面去效果就是不好,map反而下降了。所以想做一个feature selection,现有的特征也不是很多,三四十个,但是全用上效果比较差。 特征选择严格来说也是模型选择中的一种。这里不去辨析他们的关系,重点说明问题。假设我们想对维度为n的样本点进行回归,然而,n可能大多以至于远远大于训练样例数m。但是原创 2013-06-05 00:25:32 · 2539 阅读 · 0 评论 -
(EM算法)The EM Algorithm
转自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。 Jensen转载 2011-11-17 15:00:37 · 614 阅读 · 0 评论 -
Agglomerative Clustering
The tree of a hierarchical clustering can be produced either bottom-up,by starting with the individual objects and grouping the most similar ones, ortop-down, by starting with all the objects and divi转载 2011-11-17 09:46:18 · 3143 阅读 · 0 评论 -
PLSI( probabilistic latent semantic indexing ) 词分类,文档分类
折磨了我一个星期, 断断续续的看, 断断续续的想。 早上上厕所的时候,终于想通了。或许是对英文理解能力差吧, 发觉其实挺简单的。 LSA对于许多搞IR和NLP的来说应该不陌生吧,LSA用SVD降维,然后来根据word distribution,来分类文档而LSA的劣势在于,没有比较好的统计基础,这个和当前流行趋势是不相符的。所以PLSA,用概率模型来做文档分类,或者词聚类。等要求你转载 2011-11-16 17:33:58 · 1012 阅读 · 0 评论 -
协同过滤
转自http://baike.baidu.com/view/981360.htm协同过滤 电子商务推荐系统的一种主要算法。 协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用转载 2011-11-17 09:41:14 · 1469 阅读 · 0 评论 -
Example for Agglomerative Clustering
转自http://en.wikipedia.org/wiki/Hierarchical_clustering For example, suppose this data is to be clustered, and the Euclidean distance is the distance metric.Cutting the tree at a given height转载 2011-11-16 18:35:40 · 730 阅读 · 0 评论 -
MinHashing基本原理
转载http://roba.rushcj.com/?p=533&cpage=1#comment-5985读书笔记:相似度计算(1)无意中发现这本貌似不错的书 Mining of Massive Datasets,随便记一下学到的东西。因为对数据挖掘没什么研究,理解肯定很肤浅,请过往大牛指教。下面内容来自此书第三章的前面部分。在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索转载 2011-11-15 18:07:21 · 3883 阅读 · 0 评论 -
MinHashing基本原理(2)
转自http://roba.rushcj.com/?p=540读书笔记:相似度计算(2)如果有N个集合,求它们之间两两的相似度就需要N*(N-1)/2次计算,当N很大时这个代价仍然承受不起。于是我们需要一种方法能够不遍历所有可能的元素对就找出相似度较大的那些(大于某个给定的阈值t),这就是所谓Locality-Sensitive Hashing。第三章的后半部分基本全是围绕这一话题展开转载 2011-11-15 18:10:17 · 2125 阅读 · 0 评论