solr
文章平均质量分 72
july_2
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
solr 常用UI请求
1.solr优化 http://localhost:8080/solr/update?optimize=true 2.solr提交 http://localhost:8080/solr/update?commit=true 或者 http://localhost:8080/solr/update -F stream.body=' ' 3.solr优化多段 http://loc原创 2012-07-26 11:05:21 · 875 阅读 · 0 评论 -
Apache Nutch 1.7 + Solr 4.4.0安装笔记
Nutch安装 参考文档: http://wiki.apache.org/nutch/NutchTutorial 安装必要程序: yum update yum list java* yum install java-1.7.0-openjdk-devel.x86_64 找到java的安装路径: 参考: http://serverfaullt.com/question转载 2015-04-10 15:38:05 · 872 阅读 · 0 评论 -
Apache Nutch 1.7 单机安装
转载 2015-04-15 14:20:04 · 509 阅读 · 0 评论 -
Nutch1.7基本工作流程分析
找到分析源头 分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.youkuaiyun.com/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.a转载 2015-04-16 14:23:08 · 398 阅读 · 0 评论 -
nutch1.7基本工作流程源码分析
找到分析源头 分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.youkuaiyun.com/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.a转载 2015-04-15 17:05:23 · 186 阅读 · 0 评论 -
nutch在hadoop集群上安装使用
1.搭建Hadoop 2.5.1集群 配置yarn 2.创建hadoop用户 useradd hadoop passwd hadoop 3.使用hadoop用户来编译nutch-1.7文件夹 4.以hadoop用户创建文件 进入到/home/nutch/nutch-1.7/runtime/deploy文件夹下转载 2015-04-16 10:42:22 · 759 阅读 · 0 评论 -
Nutch1.7Injector源代码分析
Injector的主要功能 Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。 Injector类基本构成 (1) 三个主成员变量 nutchScoreMDName nutchFetchIntervalMDName nutchFixedFetchIntervalMDName (2) 两个内部静态类 InjectMapper I转载 2015-04-16 15:52:49 · 461 阅读 · 1 评论 -
Nutch1.7Generator源代码分析
Generator分析 Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括:抓取时间是否符合要求,是否符合设定过滤规则,根据页面评分进行排序,根据URL的host/ip/domain划分子集,是否超过设定的generate最大值(就是Crawl命令中的topN值)等。 generate方法主要包括三个job的执行: 第一个job的map和转载 2015-04-16 16:17:30 · 572 阅读 · 0 评论 -
Nutch1.7Fetcher源代码分析
Fetcher分析 Fetcher是以生产者/消费者模式来处理网页抓取的。 QueueFeeder作为生产者,从前面Generator中产生的读取出来,然后加入到FetchItemQueues队列中,加入的时候需处理队列已满等异常情况。 FetcherThread作为消费者,不断从队列里取出待抓取的URL进行抓取。 Fetcher与Injector和Generator的不转载 2015-04-16 16:18:48 · 469 阅读 · 0 评论 -
Nutch1.7ParseSegment源代码分析
ParseSegment分析 ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。 核心方法解析: map方法的功能包括: (1) 检查URL对应的Content是否抓取成功,如果没有直接返回,否则继续; (2) 检查Content的内容是否为truncated以及par转载 2015-04-16 16:18:03 · 459 阅读 · 0 评论 -
启用 solr suggest
suggest 是搜索引擎一个方便的功能,对数据的关键字进行预测和建议,减少了用户的输入,大体的效果如下: 幸运的是 solr 也提供了类似的功能,在该功能的基础上,配合 jQuery 或 kissy 的自动完成组件就可以实现类似上面的功能。 启动该功能的过程大体如下: suggest 的功能依赖拼写组件,solr_home/data 目录下会有一个 spellchecker转载 2015-03-11 17:53:24 · 510 阅读 · 0 评论 -
solr 地理空间搜索
Introduction Many applications wish to combine location data with text data. This is often called spatial search or geo-spatial search. Most of these applications need to do several things: Repr转载 2013-12-17 14:36:24 · 3643 阅读 · 0 评论 -
solr高亮(highlight),拼写检查(spellCheck),匹配相似(moreLikeThis) 应用实践
Solr 是基于lucene的检索服务器。能够很快的搭建检索服务,并且提供的很多实用的组件。例如 高亮(highlight)、拼写检查(spellCheck)和匹配相位(moreLikeThis)。下面我将在我工作中接触到的一些实践与大家分享。(我当前使用的solr 版本是 3.4,使用tomcat 7.0.21) (如果你也使用的是 tomcat 服务器,而且查询请求包含中文的话,还需要转载 2013-12-17 10:18:37 · 3715 阅读 · 0 评论 -
solr4.0扩展payload搜索
1.重写自己的Similarity 或者修改org.apache.lucene.search.similarities.DefaultSimilarity,重写scorePayload方法,这样生成索引时payload分数才会生效了,否则永远是1(默认值),如果重写自己的similarity,需要在org.apache.solr.schema.IndexSchema中当node==null时修改设原创 2012-09-06 15:57:23 · 2864 阅读 · 0 评论 -
functionQuery(函数查询)
函数查询 让我们可以利用 numeric域的值 或者 与域相关的的某个特定的值的函数,来对文档进行评分。 怎样使用函数查询 这里主要有两种方法可以使用函数查询,这两种方法都是通过solr http 接口的。 1. 内嵌在正常的solr查询表达式中。即,将函数查询写在 q这个参数中,这时候, 我们使转载 2012-09-27 12:10:20 · 791 阅读 · 0 评论 -
solr 查询参数说明
q - 查询字符串,必须的。查询语句(类似SQL) 相关详细的操作还需lucene 的query 语法 fl - 指定返回那些字段内容,用逗号或空格分隔多个。 start - 返回第一条记录在完整找到结果中的偏移位置,0开始,一般分页用。 rows - 指定返回结果最多有多少条记录,配合start来实现分页。 sort - 排序,格式:sort=+[,+]… 。示例:(sc转载 2012-09-27 11:34:49 · 848 阅读 · 0 评论 -
Dismax
Dismax handler比standard handler多如下功能: 1.以不同的权值来搜索多个field。 2.限制查询语法为一个小的集合并且用无语法错误。该特性是强制的并是不可配置的 3.整个搜索查询的自动的短语boosting 4.便利的查询boosting参数,通常同函数查询一块使用 5.能指定单词匹配的最少个数,这取决于查询串中的单词数 Disma转载 2012-09-27 10:53:22 · 4031 阅读 · 0 评论 -
lucene索引结构倒排图
转载 2012-09-19 15:00:57 · 110 阅读 · 0 评论 -
solrcloud 启动与关闭
启动 主节点: java -Xms128m -Xmx256m -Djetty.port=7000 -DzkRun -DnumShards=4 -DSTOP.PORT=4000 -DSTOP.KEY=key -Dbootstrap_conf=true -DzkHost=localhost:8000,localhost:8002,localhost:8004 -jar start.jar原创 2012-08-31 18:00:40 · 3342 阅读 · 0 评论 -
win7下resin4上安装solrcloud4.4
1概述: windows和linux安装方式相同。 2.准备: 1)下载solr4.4 resin ik 2)更改ik与solr兼容部分打包ik.jar 3)解压solr4.4到D盘 将D:\solr-4.4.0\example\solr目录复制到D:\resin盘,改名solr_home,并将D:\solr-4.4.0\example\so原创 2013-08-14 11:51:53 · 1753 阅读 · 0 评论 -
win7下tomcat7上安装solrcloud4.4
概述 由于机器台数的问题,本次搭建的是一台zookeeper服务器多台solr服务器的形式。其他知识这里不再啰嗦,可以参与:http://wiki.apache.org/solr/SolrCloud 注:"x"表示实际信息。 预先准备 1.下载solr4.1.0的压缩包:http://labs.mop.com/apache-mirror/lucene/s原创 2013-08-12 15:24:00 · 1382 阅读 · 0 评论 -
SolrCloud简介
一.简介 SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。 二.特色功能 SolrCloud有几个特色功能: 集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上转载 2013-12-11 14:44:28 · 1998 阅读 · 0 评论 -
Nutch1.7二次开发培训讲义
1、下载并解压eclipse(集成开发环境) 使用Standard版 下载地址:Eclipse Standard 4.3.2 For Windows 64Bit Eclipse Standard 4.3.2 For Windows 32Bit 其他操作系统版本 2、安装Subcl转载 2015-04-15 14:53:42 · 658 阅读 · 0 评论
分享