
——搜索| |推荐| |挖掘——
文章平均质量分 66
crazyhacking
like a hacker
展开
-
搜索引擎的中文关键字纠错系统 --文章总结
文章1,基于搜索引擎的中文关键字纠错系统--by 任腾飞 原帖:http://wenku.baidu.com/view/3bb055170b4e767f5acfcefa.html一 概述:1 基于搜索引擎的中文关键字纠错系统是基于当前流行的搜索引擎所设计的一个用户帮助系统,它的主要功能是发现用户使用搜索引擎在输入关键字时可能发生的错误,并给向用户推荐可能正确的关键字。纠错系统使用分词与纠错原创 2012-10-31 12:25:18 · 6306 阅读 · 0 评论 -
推荐算法之协同过滤算法之Slope one
推荐系统最早在亚马逊的网站上应用,根据以往用户的购买行为,推荐出购买某种产品同时可能购买的其他产品,国内做的不错的当当网,有时候买书,它总能给我推荐出我感兴趣的其他书来,也算是技术极大的促进了销售。一般的协同过滤算法,首先是收集用户对事物(产品)的评分情况,一种直接对某本书,或者某个歌曲打分,另种是隐性的打分,比如商务系统中,购买了表示打2分,浏览了打1分,其他的0分。我比较看好隐性打分,转载 2012-10-25 13:43:04 · 1891 阅读 · 0 评论 -
推荐系统之详细介绍
文章摘要: 主要介绍协同过滤推荐系统(cf):一 基于用户的cf二 基于项的的cf三 user CF 对比 item CF (1)适用场景。user CF适合于数据较多而用户固定,例如微博;item CF适合于物品固定,而用户较多,例如购物网站。结合二者,(2)多样性和精度和平衡个人来说,item cf 多样性不好,倾向于推荐相似物品。系统来说,user转载 2012-10-25 15:24:59 · 8703 阅读 · 1 评论 -
数据挖掘1之简介
数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。1)数据挖掘能做以下七种不同事情 (分析方法): 数据挖掘· 分类 (Classification) · 估计(Estimatio转载 2012-10-27 01:00:07 · 1482 阅读 · 0 评论 -
《推荐系统实践》读书笔记----第二章
待补充原创 2013-10-16 19:02:11 · 794 阅读 · 0 评论 -
EM 期望最大化算法
(EM算法)The EM Algorithm EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实转载 2013-12-11 11:21:32 · 5171 阅读 · 0 评论 -
K-means聚类算法
摘要bycrazyhacking:聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。K-means也是聚类算法中最简单的一种。以星团划分为例,,首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为,这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重转载 2013-12-11 11:07:15 · 1074 阅读 · 0 评论 -
倒排索引--lucene
用途 倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。编辑本段原理 Lucene倒排索引原理 Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2转载 2012-11-04 13:06:29 · 1347 阅读 · 0 评论