
数据挖掘
文章平均质量分 80
相国
抱歉有些留言回复可能没看到,CS硕士,
文本挖掘、DM算法、Python数据、Java后端
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
人类概念学习的复杂度 complexity of human concept learning
人类概念学习的复杂度 complexity of human concept learning, 化简布尔概念的布尔复杂度。化简是一种压缩,数据挖掘同样是一种压缩~翻译 2011-08-02 13:35:30 · 1836 阅读 · 2 评论 -
PCA学习笔记
常常看到论文的标题里带有矩阵分解的方法,最常见的有四个PCA, SVD, LDA和NMF。之前看论文内容一看到矩阵公式基本就不看,水平有限,短期内啃也啃不动。看来该学的还是绕不出去,只能慢慢补上了…很早就听说主成分分析这个名词了,看到一个人写的博文,写得通俗易懂,一看就能明白http://pinkyjie.com/2010/08/31/covariance/http:/...............原创 2011-03-19 00:52:00 · 1830 阅读 · 3 评论 -
一个简易的数据挖掘计算平台项目: feluca
业余数据挖掘项目feluca想法的完整记录原创 2014-06-30 12:03:55 · 3845 阅读 · 1 评论 -
一种简单的计算item相似度算法
计算item之间相似度是个有意义的工作,比如词的相似度就有很多应用场景。原创 2015-04-05 18:42:35 · 5921 阅读 · 4 评论 -
对GraphChi的Parallel Sliding Window的理解与随想
GraphChi设计成可以在个人计算机上高效进行大规模计算的框架,其中在模型不能一次性读入内存的时候,用到了PSW算法,核心是用连续读写来代替的随机读写。在我自己写单机算法时候也考虑过模型如果内存装不下问题,当时正好看到graphchi的PPT,也就想明白是怎么做到的,虽然我没有完整读完PSW的资料,但我发现我前端时间在做feluca设计的数据划分方式其实和PSW本质一样的,所以我感觉自己也算理解原创 2014-10-08 16:45:04 · 3567 阅读 · 0 评论 -
一个数据挖掘算法的项目:dami
(更新于2012/11/15)关注和学习数据挖掘不少年,现在数据挖掘算法已经非常多了,比较出名的基本都能找到实现好的。掌握一个算法原理十分重要,但我觉得实现一遍算法对于算法的如何适用数据才是最有帮助的。一些挖掘工具遇到大量点的数据集就吃不消,可能是对内存不珍惜,可能是对计算不节俭等等。感觉到写出一个能在海量规模下实用的算法应该还是有意义,能锻炼技术。最近业余时间多一些,也就开始想把之前工作之余写过原创 2012-07-03 17:36:31 · 4998 阅读 · 2 评论 -
随机交换检验数据挖掘结果-assessing data mining result via swap randomization
这是一篇我比较推崇的文章.06年获得KDD的best paper runner up。近年来数据挖掘在理论上突破很少,这可以算一篇。长久以来,数据挖掘一直关注方法,很少有研究数据集潜在本质的,如何从数据集表现形式去挖掘数据之间更深刻的联系,这篇论文最大亮点就是提出了一种度量数据挖掘方法(尤其是无监督的的方法)在数据集上效果的新思路。 这篇文章随机交换的思想非常简单,除了第四章有难度,其翻译 2010-10-12 22:41:00 · 2258 阅读 · 1 评论 -
kaggle competition 之 Titanic: Machine Learning from Disaster
Kaggle是一个数据科学竞赛平台(making data science a sport),在上面,很多机构会发布研究问题和数据集提供大家解决,有些会有报酬。第一次看到这个网站就觉得它会火,在信息爆炸时代,通过挖掘历史数据来对业务提供更有效的服务已经是大势所趋。而kaggle上的题目都是偏向数据挖掘类的,这相比ACM或者projecteuler这种纯算法的题要更有专业和更开放;一个题一般都会有一原创 2012-10-23 11:59:26 · 3879 阅读 · 3 评论 -
simhash进行文本查重
有1亿个不重复的64位的01字符串,任意给出一个64位的01字符串f,如何快速从中找出与f汉明距离小于3的字符串? 大规模网页的近似查重主要翻译自WWW07的Detecting Near-Duplicates for Web Crawling WWW上存在大量内容近似相同的网页,对搜索引擎而言,去除近似相同的网页可以提高检索效率、降低存储开销。当爬虫在抓取网页时必须原创 2010-11-14 16:47:00 · 18197 阅读 · 20 评论 -
数据挖掘 graph mining 之 ranking 介绍
近年来,图挖掘graph mining渐渐热了起来。这里的图是图论里说的那个图,也就是点集合和边集合构成的一种数据结构。图挖掘中几个比较重要的方向有:1. community detection2. frequent subgraph mining 3. ranking ranking中最出名的就是google的pagerank, pa原创 2011-01-29 12:19:00 · 10306 阅读 · 2 评论 -
频繁项集挖掘之apriori和fp-growth
Apriori和fp-growth是频繁项集(frequent itemset mining)挖掘中的两个经典算法,虽然都是十几年前的,但是理解这两个算法对数据挖掘和学习算法都有很大好处。在理解这两个算法之前,应该先了解频繁项集挖掘是做什么用的。频繁项集挖掘是关联规则挖掘中的首要的子任务。关联规则挖掘是要找出一个数据集上,满足一定条件的项集。这些项的集合能构成 形如蕴含式"A=>B"这样的原创 2012-05-30 09:39:14 · 16876 阅读 · 3 评论 -
二进制串模糊搜索的Java实现
这个问题其实是从之前博客(http://blog.youkuaiyun.com/lgnlgn/archive/2010/11/14/6008498.aspx)介绍的爬虫去重的论文中的一个内容,问题是这样描述的:给定N个f位的指纹集合C,对一个输入指纹f’,如何找出C中与f’汉明距离小于k的所有指纹?具体地,论文里N=80亿,f=64,K=3。 64位取3的汉明距离可能性一共有C(64,3) >原创 2011-06-04 21:37:00 · 2389 阅读 · 7 评论 -
基于随机游走的社团划分算法hadoop MR实现
继上篇介绍的算法和单机实现。这篇介绍一下mapreduce实现。其实python的实现已经用的mapreduce的思路了,改成在真实分布式环境并不难,我在hadoop平台上简单的实现了这个算法。 Map端完成边的propagation效应,即input(fromId, toId) -> output(toId,labelinfo)。每轮计算需要上一轮节点的Label结果,一次性读到原创 2011-07-07 13:39:12 · 4433 阅读 · 4 评论 -
基于评分数据的推荐算法实现:slopeone和矩阵分解
近几年推荐算法研究得比较火热,得益于netflix的百万大奖。推荐算法有多种分法,有人喜欢分成基于内容和基于用户行为的,而主流的文献还是从算法分得多:即neighborhood-based和基于factorization的。 neighbor-based方法比较早,主流的user-base和item-base,其思想都是猜测用户会喜欢和他口味一致的东西。矩阵分解直接把预测问题转换成一个估计对评分矩原创 2012-01-05 20:43:24 · 10374 阅读 · 43 评论 -
基于随机游走的社团划分算法label progation 的python实现
其实这个算法也可以作为聚类算法来用,计算出两两样本之间的相似度,作为这个算法里边的权重,可以去掉值很低的,然后进行聚类。我们假设一个图有m个节点n条边,label propagation的复杂度是O(kn) (不确定)k是迭代次数。在一般情况下,n2 因此是个和图规模线性关系的算法。如果聚类最后一步采用这种方法,那么计算两两相似度得到图结构,需要O(m2)应该是主要开销。原创 2011-06-22 19:16:00 · 6372 阅读 · 9 评论 -
随机交换(swap randomization)的python实现
随机交换内容可以看这:http://blog.youkuaiyun.com/lgnlgn/article/details/5936945其实是直接翻译作者perl源码过来的... 作者perl源码在这:http://www.cs.helsinki.fi/hiit_bru/software/swaps/作者用的是self loop的实现方式。不懂perl不过还是勉强看懂过程,python源原创 2011-11-12 21:23:23 · 3057 阅读 · 0 评论