数据挖掘
knzeus
风物长宜放眼量
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[zz]simhash算法的原理
<br />出处: http://www.cnblogs.com/linecong/archive/2010/08/28/simhash.htmlsimhash算法的原理<br />第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字转载 2011-03-29 16:46:00 · 400 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类 <br /> 赵 晨婷, 软件工程师, IBM马 春娥, 软件工程师, IBM<br />简介: 智能推荐大都基于海量数据的计算和处理,然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的,在面对解决这个问题的过程中,大家提出了很多减少计算量的方法,而聚类无疑是其中最优的选择之一。聚类 (Clustering) 是一个数据挖掘的经典问题,它的目的是将数据分为多个簇转载 2011-05-24 20:50:00 · 658 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤 赵 晨婷, 软件工程师, IBM马 春娥, 软件工程师, IBM简介: 本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者高效的实现这些算法。在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的转载 2011-05-24 20:28:00 · 401 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探 <br /> 赵 晨婷, 软件工程师, IBM马 春娥, 软件工程师, IBM<br />简介: 随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求转载 2011-05-24 20:30:00 · 607 阅读 · 2 评论
分享