
搜索/推荐引擎技术
文章平均质量分 86
iteye_12567
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce 中文版论文
MapReduce 中文版论文 作者:人云亦云 之前已经给贴了GFS和BigTable的论文,今天就把Google三大利器之一MapReduce中文版论文也发一下,原文地址,中文版原址,并在这里谢谢译者Alex,这个不是easy job。 摘要 MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 ke...原创 2010-08-20 16:51:55 · 112 阅读 · 0 评论 -
nutch的配置文件理解
nutch的配置文件我们可以从Crawl.java中看起,在main函数中, 首先加载配置类: Configuration conf = NutchConfiguration.createCrawlConfiguration();,其中createCrawlConfiguration()类为 public static Configuration createCrawlConfigurati...2011-03-21 11:55:15 · 140 阅读 · 0 评论 -
自己安装的路径
1,今天在利用nutch和solr集成的环境建立索引时,bin/nutch solrindex localhost:8080/test-solr.... 报java.io.exception错,后来调试发现Nutch没有问题,怀疑是test-solr中可能因为某些jar包之前设置出问题了。于是,重新配置了apache-solr1.4.1在~/gd_search/apache-solr1.4.1下,...2011-03-14 22:03:13 · 115 阅读 · 0 评论 -
集成nutch和solr,并加入中文分词的过程
准备工作 安装nutch 安装solr 加入中文分词 运行 1.准备工作 首先安装好jdk和tomcat,我安装的是sun-java6-jdk,注意tomcat的用户最好改成正在使用的用户(有时候在当前用户修改环境变量时,tomcat如果是root用户,可能不会载入该环境变量) 2.安装nutch 我下载的是src版本,下载后解压,进入NUTCH目录,并用ant命令编译....2011-03-04 16:51:44 · 135 阅读 · 0 评论 -
Setting up Apache Solr in Eclipse(转)
在eclipse中建立solr工程的时候,遇到的错误快把我搞崩溃了。先copy这个基本的建立过程。 by Amit Nithianandan, Senior Search Engineer at Zvents Inc. Apache's Solr is a powerful software package that allows you to develop your own...原创 2011-03-02 22:31:31 · 108 阅读 · 0 评论 -
使用 solr搭建你的全文检索(转)
Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟?那么建议先看看下面两篇文档: 实战 Lucene ,第 1 部分: 初识 Lucene:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/ 用 Lucene 加速Web搜索应用程序的开发:http://www.i...原创 2011-03-01 09:02:03 · 171 阅读 · 0 评论 -
solr配置相关
首先去官方网站看了一下solr的tutorial文档,里面给出了一个demo例子让我们熟悉solr的索引及查询过程。 http://lucene.apache.org/solr/tutorial.html 然后到wiki上看solr http://wiki.apache.org/solr/FrontPage 安装的具体过程:http://wiki.apache.org/solr/...2011-02-26 14:57:15 · 102 阅读 · 0 评论 -
pageRank计算公式的由来
经常看到各种介绍pagerank的文章,但是少有文章能够讲清楚pagerank的思想是如何产生的,事实上这还是要归结到数学原理,这篇文章是讲得让我理解最深刻的:http://www.changhai.org/articles/technology/misc/google_math.php。 pagerank产生思想源于论文引用数,引用次数越高的论文影响力越大。它原则有两点:1,网页被链接的...2011-10-05 14:10:40 · 515 阅读 · 0 评论 -
Sphinx Mysql Full-Search速成指南
Sphinx Mysql Full-Search速成指南 目录 1. Sphinx简介 1.1. 什么是全文检索 1.2. 介绍 1.3. Sphinx的特性 2. Sphinx安装(For MySQL) 2.1. Windows下安装 2.2. Linux下安装 3. 实例说明 4. Sphinx配置 5. 运行Sphinx 6. 搜索(翻译) 6.1...原创 2011-08-26 11:41:28 · 243 阅读 · 0 评论 -
mahout在eclipse下的开发环境
首先将源码转移到~/workspace下,目标文件夹为mahout-distribution-0.5 进入该目录,运行 mvn eclipse:eclipse 然后, 运行 sudo mvn -Declipse.workspace= eclipse:add-maven-repo 接着从eclipse->file->import->existing proj...2011-07-30 11:27:18 · 122 阅读 · 0 评论 -
mahout安装配置
http://log.medcl.net/item/2011/02/mahout_install/ Apache Mahout 是一个机器学习的框架,构建在hadoop上支持大规模数据集的处理,目前最新版本 0.4。 Apache Mahout 简介http://www.ibm.com/developerworks/cn/java/j-mahout/ 基于 Apac...原创 2011-07-27 20:41:44 · 243 阅读 · 0 评论 -
推荐的一些想法
在读写网一篇评论推荐系统的文章中,提出了推荐系统中5个常见的问题, 缺少数据,内容数据是一个推荐系统的基础,相当于人的身体,骨头,血,肉,怎么样有效地组织起内容数据,让它能够“健康”地得到利用,是推荐系统要做的第一步工作;但是没有灵魂的身体就是一个空躯壳,用户数据提供了推荐系统的灵魂,所以用户数据才是真正能够让推荐系统散发的魅力的关键。我使用豆瓣时,各个用户对我感兴趣的item的评论,以及我关...2010-11-02 16:29:22 · 101 阅读 · 0 评论 -
少数人的智慧(The Wisdom of the Few) (转)
看 到这么个有吸引力的名字,你不会觉得它是一篇学术论文,但实际上,它是的。这是2009年Amatriain等人发表在ACM的一篇关于推荐系统的文章。从这个并不太学术的题 目,你大概可以意想到这里面并不会涉及太多繁琐的理论细节。实际上,如果你有一些关于推荐系统的背景,你可以毫无障碍的把它读下来,因为它就相当于一篇报 告文学一般好懂,但其中揭示的道理却并非如它显示出来的那么显浅,尽管文中的叙述不一定很...原创 2010-10-12 20:26:13 · 212 阅读 · 0 评论 -
基于LUCENE实现自己的推荐引擎(转)
1、常用推荐引擎算法问题 1)、相对成熟、完整、现成的开源解决方案较少 粗略分来,目前与数据挖掘及推荐引擎相关的开源项目主要有如下几类: 数据挖掘相关:主要包括Weka、R-Project、Knime、RapidMiner、Orange 等 文本挖掘相关:主要包括OpenNLP、LingPipe、FreeLing、GATE 等,具体可以参考LingPipe’s Competition 推...原创 2010-10-01 23:37:24 · 191 阅读 · 0 评论 -
海量数据分析:Sawzall并行处理(中文版论文)
Google的工程师为了方便内部人员使用MapReduce,研发了一种名为Sawzall的DSL,同时Hadoop也推出了类似Sawzall的Pig语言,但在语法上面有一定的区别。今天就给大家贴一下Sawall的论文,值得注意的是其第一作者是UNIX大师之一(Rob Pike)。原文地址,并在这里谢谢译者崮山路上走9遍。 概要 超大量的数据往往会采用一种平面的正则结构,存放于跨越...原创 2010-08-24 16:37:22 · 424 阅读 · 0 评论 -
Google的十大核心技术
Google的十大核心技术 作者:互联网的那点事 本系列是基于公开资料对Google App Engine是如何实现的这个话题进行深度探讨。而且在切入Google App Engine之前,首先会对Google的核心技术和其整体架构进行分析,以帮助大家之后更好地理解Google App Engine的实现。 本篇将主要介绍Google的十个核心技术,而且可以分为四大类: 分布式基础...原创 2010-08-20 17:32:31 · 395 阅读 · 0 评论 -
备份记录
/nutch-1.2做了一个备份到~/petrelli/nutch-1.2原创 2011-04-06 09:13:16 · 132 阅读 · 0 评论