
搜索引擎
deepfuture
这个作者很懒,什么都没留下…
展开
-
搜狗实验室(Sogou Labs)
http://www.sogou.com/labs/搜狗实验室(Sogou Labs)是搜狗搜索核心研发团队对外交流的窗口,包含数据资源、研究合作等几个栏目。我们期望通过这个平台,展现搜狗研发团队强大的研发、创新能力;推动学术界和产业界的交互;了解用户对新产品的需求。我们的目标:为中文网民的互联网生活提供更加全面、更加优质的服务。搜索结果评价 版本:2008 发布时间:2008/0...2010-03-15 09:49:07 · 2789 阅读 · 0 评论 -
lucene-索引的优化和索引过程查看
代码:(索引建立)package bindex;import java.io.IOException;import java.io.PrintStream;import java.net.URL;import java.util.ArrayList;import java.util.List;import jeasy.analysis.MMAnalyzer;import org...2009-12-23 14:39:00 · 114 阅读 · 0 评论 -
lucene-内存索引、内存索引保存在硬盘、索引优化
索引代码package bindex;import jeasy.analysis.MMAnalyzer;import org.apache.lucene.analysis.PerFieldAnalyzerWrapper;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.d...2009-12-23 16:41:00 · 156 阅读 · 0 评论 -
lucene-索引文件格式
索引文件结构Lucene使用文件扩展名标识不同的索引文件,文件名标识不同版本或者代(generation)的索引片段(segment)。如.fnm文件存储域Fields名称及其属性,.fdt存储文档各项域数据,.fdx存储文档在fdt中的偏移位置即其索引文件,.frq存储文档中term位置数据,.tii文件存储term字典,.tis文件存储term频率数据,.prx存储term接近度数据,.n...2009-12-23 16:43:00 · 110 阅读 · 0 评论 -
lucene-对每个字段指定分析器及较复杂搜索页面(对QQ国内新闻搜索)
1、JAVA代码(索引)package bindex;import java.io.IOException;import java.net.URL;import jeasy.analysis.MMAnalyzer;import org.apache.lucene.analysis.PerFieldAnalyzerWrapper;import org.apache.lucene.an...2009-12-23 16:47:00 · 128 阅读 · 0 评论 -
lucene-使用lius解析html
1、代码package liusextract;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.UnsupportedEncodingException;import lius.index.html.JTidyHtmlIndexe...2009-12-23 16:53:00 · 941 阅读 · 0 评论 -
lucene-使用lius解析pdf、ppt、rtf、txt、xml
1、代码package liusextract;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.UnsupportedEncodingException;import lius.index.pdf.PdfIndexer;impor...2009-12-23 16:54:00 · 191 阅读 · 0 评论 -
lucene-使用lius解析word、excel
下载liushttp://sourceforge.net/projects/lius/1、解析wordpackage liusextract;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import lius.index.msword.WordInde...2009-12-23 17:00:00 · 143 阅读 · 0 评论 -
lucene-使用htmlparser提取网页特定链接
1、以EMAIL为例:(以这个网页为例http://www.qunar.com/site/zh/Cooperate_4.shtml)package extract;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.f...2009-12-23 17:06:00 · 118 阅读 · 0 评论 -
LUCENE-使用htmlparser提取网页所有链接
、代码(以这个网页为例http://www.qunar.com/site/zh/Cooperate_4.shtml)package extract;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.filters.NodeClassFilter;import org.htm...2009-12-23 17:09:00 · 128 阅读 · 0 评论 -
lucene-使用htmlparser提取网页普通链接
1、提取普通链接以http://www.qunar.com/site/zh/Cooperate_4.shtml为例,只能提取普通链接,如EMAIL链接就无法提取代码:package extract;import java.net.URL;import org.htmlparser.beans.LinkBean;public class extracthtmllinksimp...2009-12-23 17:14:00 · 188 阅读 · 0 评论 -
lucene-使用htmlparser解析有编码页面
网页中指定了以下的形式的编码<META content="text/html; charset=gb2312" http-equiv=Content-Type>一、使用org.htmlparser.beans.StringBean1、代码:package extract;import java.io.UnsupportedEncodingException;impo...2009-12-23 17:15:00 · 1107 阅读 · 0 评论 -
lucene-使用htmlparser解析未设定编码页面
一、1、使用htmlparser解析网页,如果页面没有设定编码,那么htmlparser将会iso-8859-1和编码方式解析网页2、本例假定网页没有指定编码,将http://hao.360.cn/主页另存在本地,为360a.htm,然后删除下面一行<META content="text/html; charset=gb2312" http-equiv=Content-Type&...2009-12-23 17:17:00 · 1352 阅读 · 0 评论 -
lucene-解析xml
1、安装DOM4jhttp://www.dom4j.org/2、安装jaxenhttp://jaxen.org/releases.html3、代码package extract;import java.io.*;import org.dom4j.*;import org.dom4j.io.*;import java.util.*;public class XmlExtrac...2009-12-23 17:19:00 · 219 阅读 · 0 评论 -
lucene入门-使用pdfbox解析中文PDF
很多人使用 PDFBOX无法解析中文PDF,其实是在编程时没有指定字符集导致的,指定字符集后,pdfbox是完全可以解析中文PDF的下载JAR文件下载pdfboxhttp://incubator.apache.org/pdfbox/ 下载相关的jarhttp://commons.apache.org/downloads/download_logging.cgi 引入exte...2009-12-23 17:26:00 · 213 阅读 · 0 评论 -
lucene入门-解析pdf(使用xpdf解析中文PDF详细过程)
下载xpdf和xpdf-chinese-simplified.tar.gz ,然后将xpdf-chinese-simplified.tar.gz解压到xpdf所在的目录形成一个子目录http://www.foolabs.com/xpdf/download.htmlThe following packages are available: Arabic: xpdf-arabic.tar...2009-12-23 17:27:00 · 397 阅读 · 0 评论 -
lucene入门-解析word文档
下载:http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/java代码如下:package extract;import java.io.*;import org.textmining.text.extraction.WordExtractor;public class E...2009-12-23 18:39:00 · 105 阅读 · 0 评论 -
lucene入门-解析pdf(使用pdfbox解析英文PDF)
下载pdfboxhttp://incubator.apache.org/pdfbox/下载相关的jarhttp://commons.apache.org/downloads/download_logging.cgi 引入external下的所有包英语PDF:package extract;import java.io.FileWriter;import java.io.IO...2009-12-23 18:40:00 · 163 阅读 · 0 评论 -
lucene入门-使用JE中文分词
基于词库的算法分词,是较好的中文分词器package busetoken;import java.io.IOException;import jeasy.analysis.MMAnalyzer;public class UseJe {/*** @param args* @throws IOException */public static void main(String[] ar...2009-12-23 18:45:00 · 102 阅读 · 0 评论 -
lucene入门-简单的WEB搜索界面
使用servlet和tomcat6,注意事项:1,将lucene-core-2.9.0.jar复制到WEB-INF\lib 2,按照tomcat的要求组织好目录3,编写好web.xml4,编译产生的SluceneSearcher.class类拷到WEB-INF\classes\bservletweb.xml配置如下:<?xml version="1.0" encodi...2009-12-23 18:46:00 · 267 阅读 · 0 评论 -
lucene-NGram中文分词
NGram(综合了单词切分和二分法)package busetoken;import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Token;import org.apache.lucene.analysis.ngram.NGramTokenizer;publ...2009-12-23 19:00:00 · 374 阅读 · 0 评论 -
lucene-使用自带中文分词器
使用lucene内自带的,在contrib/analyzerslucene-analyzers-2.9.0.jar即单字分析package busetoken;import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Token;import org.apache...2009-12-23 19:01:00 · 107 阅读 · 0 评论 -
lucene-使用CJKTokenizer分词
二分法分词package busetoken;import org.apache.lucene.analysis.cjk.CJKTokenizer;import org.apache.lucene.analysis.Token;import java.io.IOException;import java.io.StringReader;public class UseCjk {...2009-12-23 19:12:00 · 405 阅读 · 0 评论 -
lucene入门-索引目录下的所有网页以及索引检索
package bindex;import java.io.File;import tool.FileText;import tool.FileList;import java.io.*;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache....2009-12-23 19:15:00 · 102 阅读 · 0 评论 -
lucene入门-索引网页
package bindex;import java.io.File;import tool.FileText;import java.io.IOException;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.inde...2009-12-23 19:21:00 · 74 阅读 · 0 评论 -
lucene入门-复杂索引建立
一个document包括多个field,以一个document为了一个单元建立索引,下例包括2个document:package bindex;import java.io.IOException;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apa...2009-12-23 19:26:00 · 128 阅读 · 0 评论 -
Nutch 的配置
Nutch 的配置文件几乎覆盖了Nutch 所有的功能。以前在网上看到过一个关于Nutch-default.XML 配置项解释,地址我没收藏,和本文配合起来看,会更好一些。这里我也不打算对其配置文件中的每一项做解释,如果在下面的解释里找不到想要的内容,请发表评论,我会回复的。<property><name>http.max.delays</name><...2009-12-23 19:32:00 · 90 阅读 · 0 评论 -
Heritrix架构剖析
Heritrix采用了模块化的设计,它由一些核心类(core classes)和可插件模块(pluggable modules)构成。核心类可以配置,但不能被覆盖,插件模块可以被由第三方模块取代。(一)heritrix的体系结构图:(二)架构分析CrawlController(下载控制器)整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从Frontier...2009-12-23 19:38:00 · 115 阅读 · 0 评论 -
nutch-JE分词
先下载Nutch 1.0的源文件:co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分:改变tokenize的方式(原来为中文单字识别)modify “src/java/org/apache/nutch/analysis/NutchAnalysis.jj”...2009-12-23 19:39:00 · 94 阅读 · 0 评论 -
nutch-乱码解决
在Nutch的搜索框中输入中文,点击“搜索”按钮之后,可以看到搜索框中的关键字是乱码,搜索结果也为空。网上有很多文章都谈到了这个现象,这不是Nutch的问题,而是Tomcat没有对uri做编码造成的。解决的办法也很简单,在Tomcat的安装目录下找到”conf/server.xml”文件,在"Connector port=”8080″ ”那一节添加URIEncoding="UTF-8" useBo...2009-12-23 19:50:00 · 133 阅读 · 0 评论 -
ubuntu下nutch-1.0的安装和配置错误排除
一、安装JDK(笔者推荐使用原生的方式安装SUN-JDK6一、保证TOMCAT的正常安装二,下载nutch-1.0,解压后,并将它拷贝到/opt/目录下。cd /opt/nutch-1.0root@fjadmin-webcrawler:/opt/nutch-1.0# sh bin/nutch crawl一般来说没有设置JAVA_HOME等环境,会报以下错误:[: 72: ==: une...2009-12-23 19:51:00 · 98 阅读 · 0 评论 -
为Nutch 1.0添加JE中文分词
先下载Nutch 1.0的源文件:svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0更改查询语法解析部分:改变tokenize的方式(原来为中文单字识别)modify “src/java/org/apache/nutch/analysis/NutchAnalysis.jj”...2009-12-23 19:52:00 · 96 阅读 · 0 评论 -
在什么是自然语言处理中的中文分词技术?
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:"我是一个学生"。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白"学"、"生"两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 ...2009-12-23 19:59:00 · 211 阅读 · 0 评论 -
nutch1.0在eclipse下的成功编译要注意事项
有以下要点要注意:1、在WINDOWS的环境变量中要正确指定JDK目录2、build.xml编译报错,Nutch\nutch-0.9\build.xml:61: Specify at least one source--a file or resource collection.将下面几行的前几行(从61行开始直到下面的<copy todir="${conf.dir}" ve...2009-12-23 20:01:00 · 128 阅读 · 0 评论 -
nutch-build.xm解读
nutch-build.xm解读搜索引擎与人工智能 2009-05-09 19:16 阅读4评论0 字号: 大大 中中 小小 花了很多时间来读这个build.xml,并不是这个包不好读,相反可读性非常强,这就是xml的好处.自己花了很多的时间去熟悉ant!从Ant的task,type,nested element等一点一点读起.这样整个nutch的配置结构,我...2009-12-23 20:12:00 · 99 阅读 · 0 评论 -
垂直搜索技术
垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的...2009-12-23 20:16:00 · 176 阅读 · 0 评论 -
Larbin-C++实现的爬虫
http://larbin.sourceforge.net/index-eng.html互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩...2009-12-23 20:30:00 · 150 阅读 · 0 评论 -
网络爬虫调研报告
基本原理Spider概述 Spider即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序 ;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫。 Spider是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下载网页 ,是搜索引擎的重要组成 .它通过请求站点上的 HT...2009-12-23 20:32:00 · 362 阅读 · 0 评论 -
网络爬虫-Heritrix 和 Nutch比较与分析
Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。下面是二...2009-12-23 20:38:00 · 133 阅读 · 0 评论 -
WEB爬虫的几个要点
1、WEB爬虫运行时,必须要对网页进行解析,提取出URL,以进行进一步爬取2、WEB爬虫运行时,要完成源网页的下载工作,连同图像一起。3、WEB爬虫运行时,要完成对源网页的文本提取工作,以便于建立倒排索引。如果使用开源技术和JAVA构建,可以使用2种提取网页文本信息的方式:1)正则表达式,自己编写相关正则式2)HTMLParser,提供了API...2009-12-23 21:04:00 · 137 阅读 · 0 评论