
搜索
iteye_20038
这个作者很懒,什么都没留下…
展开
-
Spider技术综述 (转)
文/腾讯soso 邓大付 Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中,通常先种入一批种子Url,Spider对这些种子Url采集之后将链接提取入库,然后再对新入库的Url进行采集,并且负责对采集过的Url进行更新采集,如此循环。 随着各种垂直搜索引擎的不断发展,整个Spider在功能上又分为传统的收集互联网上所有数据的大S...原创 2011-07-07 15:34:45 · 171 阅读 · 0 评论 -
大数据量,海量数据 处理方法总结(转)
大数据量,海量数据 处理方法总结(转) 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优...原创 2011-08-16 16:53:36 · 129 阅读 · 0 评论 -
如何提高lucene索引的速度
1·关闭复合文件格式 调用setUseCompoundFile(false)可以关闭复合文件选项。生成复合文件将消耗更多的时间2·优化索引其实就是将多个索引文件合并成单个文件的过程,为了减少索引文件的数量级,能在搜索时减少读取索引文件的时间进行的操作。3·优化索引的最佳时机是在索引过程结束后,当确认在此一段时间不会对索引文件进行更改的时候,在索引过程中优化索引只...原创 2011-08-18 16:41:26 · 201 阅读 · 0 评论 -
有关Solr中SolrIndexSearcher的search和getDocSet的差别
最近项目中碰到问题,发现在调用SolrIndexSearcher的 public TopFieldDocs search(Query query, Filter filter, int n, Sort sort) throws IOException;和public DocSet getDocSet(Query query) ...原创 2012-01-09 18:48:03 · 207 阅读 · 0 评论