
搜索引擎
文章平均质量分 72
wbj0110
这个作者很懒,什么都没留下…
展开
-
开源爬虫Labin,Nutch,Neritrix介绍和对比
Larbin开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下larbin每天可以爬5百万个页面(当然啦,需要拥有良好的网络)简介Larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独...原创 2013-11-27 12:23:48 · 100 阅读 · 0 评论 -
Lucene 倒排索引机制
利用 Lucene,在创建索引的工程中你可以充分利用机器的硬件资源来提高索引的效率。当你需要索引大量的文件时,你会注意到索引过程的瓶颈是在往磁盘上写索引文件的过程中。为了解决这个问题, Lucene 在内存中持有一块缓冲区。但我们如何控制 Lucene 的缓冲区呢?幸运的是,Lucene 的类 IndexWriter 提供了三个参数用来调整缓冲区的大小以及往磁盘上写索引文件的频率。 1.合并因...原创 2013-09-07 11:41:21 · 173 阅读 · 0 评论 -
lucene 的分析器(analyzer)与分词器(tokenizer)和过滤器(tokenfilter)
1〉analyzer主要包含分词器跟过滤器,他的功能就是:将分词器跟分析器进行合理的组合,使之产生对文本分词和过滤效果。因此,分析器使用分词和过滤器构成一个管道,文本在“滤过”这个管道之后,就成为可以进入索引的最小单位。 2〉tokenizer主要用于对文本资源进行切分,将文本规则切分为一个个可以进入索引的最小单元 3〉tokenfilter主要对分词器切分的最小单位进入索引进行预处理,如:大...原创 2013-09-08 10:43:01 · 360 阅读 · 0 评论 -
搜索引擎相关学习
1:搜索引擎按原理和工作方式可分为:A:爬虫式,主要用Socket实现,基于TCP/IP协议B:目录索引式,以早期的yahoo为代表C:元搜索引擎,即将多个搜索引擎的结果合并返回2:按领域范围可分为:A:通用搜索引擎---针对全互联网全部网站和各种数据信息,信息全,领域广B:垂直搜索引擎---针对果某一行业,如企业库搜索,供求信息搜索,房产搜索等3:信息类型分类:...原创 2013-09-11 09:50:02 · 176 阅读 · 0 评论 -
Google蜘蛛UA及IP
Google# UA “AdsBot-Google (+http://www.google.com/adsbot.html)”# UA “Googlebot-Image/1.0″# UA “Googlebot/2.1 (+http://www.googlebot.com/bot.html)”# UA “Googlebot/Test (+http://www.googlebot.com/bot....原创 2013-09-20 21:33:29 · 450 阅读 · 0 评论 -
使用Google Analytics跟踪搜索引擎的抓取记录
<?php/* * Name:Tracking Robots With Google Analytics * Author:biaodianfu * URI;http://www.biaodianfu.com/tracking-robots-with-google-analytics.html */$utmac = 'UA-16811947-5'; //输入Goo...原创 2013-09-21 14:35:09 · 203 阅读 · 0 评论 -
使用Google Analytics来统计手机网站的流量
<?phpclass GoogleAnlayticsMobile { private $__utma; // __utma cookie 记录唯一身份访问者 private $__utma_c_time = 63072000; // 两年 (默认情况下是两年) private $__utmb; // __utmb cookie 记录用户的一次S...原创 2013-09-21 14:35:46 · 204 阅读 · 0 评论 -
PhotoSketch-图片搜索技术
来自清华大学的牛人的图片搜索引擎,具体操作步骤为:1、用鼠标随便画几个图形,2、写这几个图形对于东西的名字,3、Photosketch就会根据你画的几个图形,找到对应的图像。http://cg.cs.tsinghua.edu.cn/montage/main.htm关于此图片搜索引擎的:PDF论文及源代码另,补充一些有特色的图片搜索引擎。1.Picitup简介:Pic...原创 2013-09-22 08:55:55 · 529 阅读 · 0 评论 -
Google Search Appliance 抓取时间表
在指定要抓取的网址并配置了用于抓取的服务器之后,可以通过抓取并编制索引 > 抓取时间表页选择抓取模式,对于预定抓取模式,可以指定抓取您的服务器的次数。抓取模式Search Appliance 具有以下抓取模式:持续抓取。 如果您想让抓取工具自动查找更新内容并编制索引,请选择该模式预定抓取。 如果您想精确控制所有抓取的时间和持续时间,请选择该模式。 当出现以下情况时,...原创 2013-09-25 08:55:34 · 193 阅读 · 0 评论 -
lucene文件格式
定义 Lucene中最基础的概念是索引(index),文档(document),域(field)和项(term)。 索引包含了一个文档的序列。 · 文档是一些域的序列。 · 域是一些项的序列。 · 项就是一个字串。 存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的,第一个字串是域名,第二个是域中的字串。 倒排索引 为了使得基于项的搜索更有效率,索引中项是静态存储的。Lu...原创 2013-09-26 08:52:56 · 140 阅读 · 0 评论 -
使用Java调用百度搜索(转)
search-demo托管于github search-demo演示了如何利用Java来调用百度搜索和谷歌搜索,更多细节请到github上查看search-demo 自己没搜索引擎,又想要大规模的数据源,怎么办?可以对百度搜索和谷歌搜索善加利用,以小搏大,站在巨人的肩膀上。有很多的应用场景可以很巧妙地借助百度搜索和谷歌搜索来实现,比如网站的新闻采集,比如技术、品牌的新闻...原创 2014-03-17 17:27:10 · 687 阅读 · 0 评论 -
使用Java调用谷歌搜索(转)
search-demo托管于github search-demo演示了如何利用Java来调用百度搜索和谷歌搜索,更多细节请到github上查看search-demo 自己没搜索引擎,又想要大规模的数据源,怎么办?可以对百度搜索和谷歌搜索善加利用,以小搏大,站在巨人的肩膀上。有很多的应用场景可以很巧妙地借助百度搜索和谷歌搜索来实现,比如网站的新闻采集,比如技术、品牌的新闻...原创 2014-03-19 08:53:28 · 234 阅读 · 0 评论 -
分布式搜索算法,算法
对于搜索引擎来说,索引存放在成千上万台机器上,如何进行分布式搜索呢? 假设搜索结果是以分页的方式显示,以PageNumber代表当前页,从1开始,以PageSize代表页面大小,默认为10,以N代表搜索服务器数量。最简单的分布式搜索算法为:有一台合并服务器负责接受用户的搜索请求,然后分别向N台机器获取前PageNumber*PageSize条结果,得到的结果数为N*PageNumber...原创 2014-03-25 09:48:36 · 345 阅读 · 0 评论 -
solr性能调优
Schema Design Considerations indexed fields indexed fields 的数量将会影响以下的一些性能: 索引时的时候的内存使用量 索引段的合并时间 优化时间 索引的大小 我们可以通过 将 omitNorms=“true” 来减少indexed fields数量增...原创 2013-09-07 11:40:47 · 146 阅读 · 0 评论 -
搜索引擎停用词
为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Stop Words(停用词)。Stop Words大致为如下三类:应用十分广泛,在Internet上随处可见的词,比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率。语气助词、副词、介...原创 2013-09-06 09:05:48 · 1139 阅读 · 0 评论 -
Drupal 中文切面搜索 - Search API + Facet API + Apache Solr + IKAnalyzer
Drupal 7 可以处理简单的中文搜索,如果你需要一个更灵活的搜索功能,想要更高的效率与更准确的搜索结果,可以试试 search_api + facetapi + search_api_solr + IKAnalyzer 。Search API搜索了非常灵活的搜索方式,它是一个搜索框架,你可以定制需要索引的字段,流程等等,安装以后,你要先创建搜索服务器,服务器需要安装其它的模块来提...原创 2013-09-05 09:28:20 · 331 阅读 · 0 评论 -
全文检索引擎 Sphinx
Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。Sphinx 单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0...原创 2013-12-05 09:36:23 · 185 阅读 · 0 评论 -
Lucene索引查看工具 Luke
Luke 是查询LUCENE索引文件的工具, 而且用 Luke 的Search可以做查询Luke is a handy development and diagnostic tool, which accesses already existing Lucene indexes and allows you to display and modify their contents in...原创 2013-12-09 10:08:24 · 234 阅读 · 0 评论 -
搜索引擎技术内幕之索引
搜索引擎中索引的好坏直接影响着搜索引擎的性能,最终影响到用户的体验,可见索引的重要性。今天我们就来谈谈索引技术。谈到索引大家第一想到的是倒排索引,的确倒排在全文检索中的优势,在搜索引擎中的大量使用令它声名鹊起。所以在此就以倒 排进行分析。但是除了倒排索引外还有很多的索引方式,如静态索引方式有:位图、签名文件、倒排等;动态索引有:B树、B+树等等。搜索引擎之所以大量使用倒排作为它内部的索...原创 2014-05-03 12:52:04 · 243 阅读 · 0 评论 -
搜索引擎 Nutch
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户. Nutch为我们提供了这样一个不同的选择....原创 2013-12-31 14:52:27 · 141 阅读 · 0 评论 -
Java的索引-搜索引擎 IndexTank
IndexTank, 一套基于Java的索引-实时全文搜索引擎实现,Includes features like variables (boosts), categories (facets), faceted search, snippeting, custom scoring functions, suggest, and autocomplete。IndexTank的设计分离了相关性标记...原创 2014-01-24 08:11:53 · 301 阅读 · 0 评论 -
提升网站权重之内链优化之我谈
网站优化,无非就是内容、外链、内链这三大类,内容原创、高质量外链、合理的内链是提升网站权重的三大要素,内容和外链不是今天的主要内容,所以这里就不再阐述,今天就和大家聊聊内链优化的问题。内链是指网站内容页中关键词所指向站内的url链接,这个链接最开始的目的是实现相关内容的跳转,随着搜索引擎功能的提升,内链被认为是提升用户体验、提高蜘蛛抓取面的一个有效工具,所以在做seo的时候,内链被认为是一个不...原创 2013-08-18 09:08:55 · 156 阅读 · 0 评论 -
网站结构之内链分析
一个网站的内部结构包括:网站的程序、网站的结构、关键词的密度、关键词的分布、网站的内部链接等。而想提高网站的整体的权重网站的内部链接是至关重要的。所谓的网站的内部链接,就是网站的内部页面与页面之间的链接。内部的链接也是会传递权重的。内部链接的好坏体现在网站的收录量上,如果一个网站的收录量在持续稳定的上升着,那就说名这个网站的内链是做的比较出色的。网站中PR的传递也是均匀的,首页最高,栏目次之,...原创 2013-08-18 09:09:15 · 432 阅读 · 0 评论 -
搜索引擎核心技术原理
1.概述搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。2.搜索引擎分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引...原创 2013-08-28 10:39:30 · 1521 阅读 · 0 评论 -
倒排索引介绍
1.简介倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这些...原创 2013-08-29 10:05:11 · 143 阅读 · 0 评论 -
Solr4.0搭建应用
今天看到Solr4.0于是心血来潮重新整理一下,因为之前只整理过3.6的,而且还没有发到博客上。 下载地址http://lucene.apache.org/solr/ 点击下面的4.0 转向到http://www.apache.org/dyn/closer.cgi/lucene/solr/4.0.0 我推荐大家用这个 http://labs.mop.com/apache-mirror/luc...原创 2013-09-04 12:29:25 · 145 阅读 · 0 评论 -
百度site指令查收录的问题汇总
我知道大多数站长,会使用不带关键词的site语法来进行收录量观察。这是一种方法,但很不准确。site语法设定的初衷,其实是期望用户可以设定约束搜索范围,实现更加精准的搜索。这同intitle,inurl,本质上是相同的。而在这些高级语法下的结果数,和常规搜索一样,都是“估值”,而非精确值。因此,很有可能site下的“结果数”减少了,实际被索引数却可能增加了。更加精确的方法是什么呢?1,...原创 2013-09-04 12:30:56 · 390 阅读 · 0 评论 -
记录蜘蛛爬行历史--PHP版
<? function get_naps_bot(){$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);if (strpos($useragent, 'googlebot') !== false){return 'Google';}if (strpos($useragent, 'baiduspid...原创 2013-09-04 12:31:27 · 268 阅读 · 0 评论 -
开源搜索引擎Solr的快速搭建及集成到企业门户最佳实施方案
笔者经过研究查阅solr官方相关资料经过两周的研究实现了毫秒级百万数据的搜索引擎的搭建并引入到企业门户。现将实施心得和步骤分享一下。1. jdk1.6安装jdk1.6到系统默认目录下X:\qc\Java目录下(注意要点:配置好环境变量)。2. tomcat安装a) 安装tomcat到X:\qc\tomcat6目录下。b) 配置ser...原创 2013-09-05 09:28:06 · 182 阅读 · 0 评论 -
分布式搜索方案选型(转)
分布式搜索方案选型之一:Solr 我第一个了解到的分布式搜索框架是solr,它是由java开发的,基于lucene的分布式搜索引擎,提供了类似于webserver的编程接口,是一个比较成熟的 搜索引擎,目前很多公司都在使用。很快我就部署了一个由4台机器组成的solr集群,开始导公司的数据进去测试,导的数据为200万。导入速度非常快。接 下来就开始测试查询效率,发现它是有缓存的,第一...原创 2014-03-27 14:25:22 · 134 阅读 · 0 评论