
☆搜索引擎技术☆
文章平均质量分 68
核动力蜗牛Killua
http://blog.yidooo.net/
展开
-
PyLucene学习笔记 文件索引及检索
一、使用Indexer建立文本文件索引 这里简化为对某一目录下面的所有后缀为“.py”的文件建立索引。'''Created on 2011-11-16@author: killua@E-mail:killua_hzl@163.com'''import osfrom time import timefrom datetime import timedelta原创 2011-11-21 00:22:32 · 1795 阅读 · 0 评论 -
【集体智慧编程 学习笔记】统计订阅源中的单词数
几乎所有的博客都可以在线阅读,或者通过RSS订阅源进行阅读。RSS订阅源是一个包含博客及其所有文章条目信息的简单的XML文档。程序中使用了feedparser第三方模块,可以轻松地从任何RSS或Atom订阅源中得到标题、链接和文章的条目。完整代码如下:01'''02Created on Jul 14,原创 2012-07-16 09:16:55 · 3914 阅读 · 1 评论 -
【集体智慧编程 学习笔记】 Euclidean距离和Pearson相关系数
Euclidean距离定义:欧几里得空间中点 x = (x1,…,xn) 和 y = (y1,…,yn) 之间的距离为Euclidean距离公式Pearson相关系数两个变量之间的相关系数越高,从一个变量去预测另一个变量的精确度就越高,这是因为相关系数越高,就意味着这两个变量的共变部分越多,所以从其中一个变量的变化就可越多地获知另一个变量的变原创 2012-06-24 20:48:19 · 4040 阅读 · 0 评论 -
【集体智慧编程 学习笔记】 推荐系统构建
本文构建了一个简单的推荐系统,使用的数据是真实的数据,叫作MovieLens,来自University of Minnesota‘s GroupLens项目组。代码以Python作为实现语言,使用版本为Python2.7。loadMovieData:用于数据的读取。userData指的是以userId为键构建的电影评分列表。movieData值的是以movieId为键构建的电影评分列表。原创 2012-07-02 13:03:33 · 3156 阅读 · 3 评论 -
【集体智慧编程 学习笔记】 协同过滤技术
协同过滤技术可以分为三类:基于用户(User-based)的协同过滤;基于项目(Item-based)的协同过滤;基于模型(Model-based)的协同过滤。 基于用户(User-based)的协同过滤 用相似统计的方法得到具有相似爱好或者兴趣的相邻用户,所以称之为以用户为基础(User-based)的协同过滤或基于邻居的协同过滤(Neighbor-based C原创 2012-07-02 13:01:46 · 2068 阅读 · 0 评论