search
leibnitz09
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
<br><b>百川搜索</b>:<b>百合搜索</b>
百川搜索:百合搜索 百合搜索,你的搜索专家.百合一下,就知天下!百合搜索,搜索门户,你的搜索伴侣.百合搜索 搜索门户,百合搜索,搜索专业 ,网页搜索,娱乐搜索,mp3搜索,电影搜索. 搜索专业门户,百合搜索搜索专业门户,百合搜索百合搜索搜索专业门户,百合搜索搜索专业门户,百合搜索搜索专业门户,百合搜索 百合搜索 百川搜索:百川搜索 百川搜索,你的搜索专家.百川一下,就知天下!...2009-04-11 11:03:01 · 375 阅读 · 0 评论 -
搜索引擎中的信息处理和概率论
info theory and maths used in search match原创 2017-02-06 15:57:02 · 305 阅读 · 0 评论 -
nutch 发布时要注意的问题
在利用Nutch自身的ant打包后,如果对整个项目不太清楚结构,往往出现很多奇怪的问题。这里就是遇到了。。。 *打job后,留在该项目中进行测试时,出现: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException: org.apache.nutch.net.urlnormalizer....2011-12-04 23:40:51 · 127 阅读 · 0 评论 -
nutch 配置文件详解
下面来分析 一下,conf目录下各文件的作用是怎样的: crawl-urlfiter.txt :此文件名在crawl-tool.xml中配置,属于crawl命令专有的配置,即分布式抓取 时不起作用。 regex-urlfilter.xml :此文件在分布式抓取时将代替crawl-filter.txt,see nutch-defulat.xml --上述解析类见RegexURLFilter...2011-11-17 16:58:01 · 251 阅读 · 0 评论 -
nutch 几种搜索布署
1。这是最简单的一种布署方式,通常用于简单测试。 2.当过索引大小超过一台机器时,应该使用cluster方式。 see also: nutch 分布式搜索-cluster-hdfs index 3。虽然2中解决了数据量大的问题,但没解决快速搜索的目的。 see also: nutch 分布式搜索-cluster-hdfs index 4.在3的...2011-12-29 13:21:46 · 124 阅读 · 0 评论 -
nutch analyzers 使用机制
一。索引时analyzer 我们知道,在Indexer进行index时,是利用IndexOutputFormat进行rewrite的,其中write filters有一个:LuceneWriter。它是这样处理的: *如果crawl过程index filters有添加lang field,那么在此时是依据此它进行retrieve plugin related NutchAnalyzer...2011-07-31 14:35:35 · 143 阅读 · 0 评论 -
nutch 分布式索引(爬虫)
其实,全网抓取比intranet区别再于, 前者提供了较为多的urls入口, 没有使用crawl-urlfilter.txt 中并没有限制哪些url ,(如果没有使用crawl命令) 并通过逐步处理的方式得以可按的局面; 在1.3,还有此区别, 如默认的fetcher.parse是false,使得每次fetch后必须有一个parse step,刚开始老是看...2011-10-19 00:15:26 · 215 阅读 · 0 评论 -
nutch 分布式搜索-cluster-hdfs index
此过程也很简单,步骤是: a.put the indexes to hdfs respectively; b.let search server three xml files related with hdfs,core,mapred -site.xml be same with the hadoop-slave's respectively; c.retrieve the path of...2011-10-17 02:14:05 · 114 阅读 · 0 评论 -
nutch 分布式搜索-cluster-local index
此过程亦相当简单,只是修改一下search-servers.txt即可。 see standalone mode2011-10-17 02:13:39 · 112 阅读 · 0 评论 -
nutch 分布式搜索-standalone mode
本地模式篇,其实就是相当 于之前图中的虚线部分。詳細如下图: 安装步骤: 1.search client that acts as a web container to make requests. 2.search servers which supply services to feed ./bin/nutch server <port> <...2011-10-17 01:47:41 · 107 阅读 · 0 评论 -
nutch 数据增量更新
以下是转载的执行recrawl的脚本(其实还是可以再优化的,比如参数和备份处理过程等 ),来对比 一下与普通的crawl有啥区别。 # runbot script to run the Nutch bot for crawling and re-crawling. # Usage: bin/runbot [safe] # If executed in 'safe' mode,...2011-07-22 19:25:17 · 175 阅读 · 0 评论 -
nutch 评分机制
其实nutch的评分机制有二部分,与通常的SE类似: 1。keywords匹配度 比如利用了lucene的similary机制,要索引和查询时均可定制。 2。page rank 这里有二个, 一是LinkAanlyzeScoring,作通常连接分析,但基本上都没有方法实现;不知道是否是opic的一个早期版本? 二是opic,即on-line importance c...原创 2011-07-22 02:28:22 · 258 阅读 · 0 评论 -
nutch对某个contentType文档进行解析的流程--html
经过上一遍contentType流程 介绍后,现在进入具体的针对html文档的解析过程介绍。 在ParseUtil#getParse()中, 当选定一种parser( 这里是HtmlParser)后,便 进入到对应 的getParse方法中。 大概步骤是: 1.猜测页面的最佳编码; 2.解析页面中特定的meta,如robots,base等元数据; 3.检查是否可以index或...2011-09-22 23:44:59 · 107 阅读 · 0 评论 -
nutch 处理robots.txt原理
形如大多SE一样,在bot搜寻过程中会检查网站robots.txt 文件,以便是否设置了针对自己的rules。 一.robots.txt常识 由于robots.txt是一个协议而不是规范,所以不同的SE会有自己的实际处理规则。nutch也一样。 看看它是怎样书写的: User-agent: unhipbot Disallow: / User-...原创 2011-08-28 16:42:17 · 209 阅读 · 0 评论 -
更新搜索
<b>百合搜索</b>:<b>百合搜索</b> <b><a href="http://www.soexact.com:8100/" title="百合搜索">百合</a></b>,你的搜索专家.百合一下,就知天下!<h1&g2009-05-01 14:52:32 · 122 阅读 · 0 评论 -
搜索引擎有多聪明?
ref:https://www.seozac.com/seo/smart-blackhat/原创 2017-02-11 13:56:13 · 159 阅读 · 0 评论
分享