
数据检索
深度Java
这个作者很懒,什么都没留下…
展开
-
Xapian安装
Xapian是一个用C++编写的全文检索程序,他的作用类似于Java的lucene。Xapian除了提供原生的C++编程接口之外,还提供了Perl,PHP,Python和Ruby编程接口和相应的类库,所以你可以直接从自己喜欢的脚本编程语言当中使用Xapian进行全文检索了。w原创 2011-07-08 22:15:25 · 3958 阅读 · 0 评论 -
图片服务器的url hash架构
什么是urlhash架构url hash架构对url进行一次hash算法,然后通过hash结果找到对应的服务器。因为针对单一个url的hash结果是一样的,所以理论上这个url会被永久分配到固定的一台服务器上。另外因为经过了hash算法,所以分配url就很均匀,同时访问量也可原创 2011-07-11 01:58:14 · 5055 阅读 · 0 评论 -
搜索引擎中的URL散列
散列(hash)也就是哈希,是信息存储和查询所用的一项基本技术。在搜索引擎中网络爬虫在抓取网页时为了对网页进行有效地排重必须对URL进行散列,这样才能快速地排除已经抓取过的网页。最理想的状态是对联网上所有的网页都分配一个哈希地址,可想而知这是一个相当宠大的数字,但实际上往往是无法原创 2011-07-11 01:59:21 · 3081 阅读 · 2 评论 -
linux安装sphinx
从sphnix网站下载sphinx源码包,当前最新版本是:http://sphinxsearch.com/files/sphinx-0.9.9.tar.gz。当然,还需要保证你的系统已经安装了mysql。 其次,就是依照官方的安装指导进行安装了,基本步骤如下:原创 2011-07-08 22:05:22 · 3493 阅读 · 0 评论 -
到底什么是hash?它起什么作用?
从emule诞生到现在也已经有了两年左右时间了,随着emule的普及,喜欢他的人也越来越多,但是由于emule对技术相应有一个门槛,不像bt那么容易上手,所以很多朋友很长时间以来一直都有这样或那样的疑问,今天是周末我也献献丑,写一篇关于hash的文章。大家天天都在使用em原创 2011-07-11 02:05:20 · 20385 阅读 · 0 评论 -
哈希分布与一致性哈希算法简介
前言在我们的日常web应用开发当中memcached可以算作是当今的标准开发配置了。相信memcache的基本原理大家也都了解过了,memcache虽然是分布式的应用服务,但分布的原则是由client端的api来决定的,api根据存储用的key以及已知的服务器列表,根据key原创 2011-07-19 15:37:33 · 2380 阅读 · 0 评论 -
影响Lucene索引速度原因以及提高索引速度技巧
<br />在网上看了一篇外文文章,里面介绍了提高Lucene索引速度的技巧,分享给大家。<br />先来看下影响索引的主要因素:<br /><br />MaxMergeDocs<br />该参数决定写入内存索引文档个数,到达该数目后就把该内存索引写入硬盘,生成一个新的索引seg原创 2010-07-28 12:42:00 · 2918 阅读 · 0 评论