
搜索引擎
文章平均质量分 80
uastation
VB,C,Asp,Html,J2EE,Jsp,Java,Applet.Oracle,Mysql.
展开
-
搜索引擎基本工作原理
今天刚好要了解搜索引擎的项目的技术,所以就上网找了下关于搜索引擎的资料,整理了下,作为学习笔记之用.搜索引擎基本工作原理了解搜索引擎的工作原理对我们日常搜索应用和网站提交推广都会有很大帮助。 ...........................................................................................原创 2009-05-31 16:06:07 · 118 阅读 · 0 评论 -
java.lang.NoClassDefFoundError: org/apache/lucene/index/memory/MemoryIndex
Lucence3.0搜索框架异常: root cause: [color=red]java.lang.NoClassDefFoundError: org/apache/lucene/index/memory/MemoryIndex[/color]解决方案: 在Web工程下导入lucene-memory-3.0.1.jar包,该包在lucene-3.0...2011-06-26 16:37:05 · 355 阅读 · 0 评论 -
中文字符集与字符编码的基础知识[转载]
中文字符集与字符编码的基础知识字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储...原创 2010-10-10 21:09:45 · 137 阅读 · 0 评论 -
国内外网站字符编码详解
Utf-8编码在国外应用普遍,为什么在国内应用却不多呢? 尤其各大门户网站采用Utf-8的几乎没有。是否采用Utf-8,这个问题大家争论已久,但是很 少有人系统地解说为什么要采用Utf-8编码?凡事皆有正反!采用Utf-8编码同样有其利弊, 当利大于弊,我们当然就采用Utf-8? 关于UTF-8编码和中文字符集 中文有三种字符集,统 一文字的编码将是进一步交流的基础。 ·国内网站和BLOG较多使用...原创 2010-10-09 10:07:30 · 1165 阅读 · 0 评论 -
java匹配中文的正则表达式
Java的正则表达式如何匹配中文字符呢? 下面给出例子让我们匹配所有的中文字符: public static void regxChinese(){ // 要匹配的字符串 String source = "<span title='5 星级酒店' class='dx dx5'>"; // 将上面要匹配的字符串...2011-01-25 13:46:08 · 199 阅读 · 0 评论 -
htmlparser自定义标签UlTag
htmlparser如何自定义UlTag标签: 代码如下: public class UlTag extends CompositeTag { private static final String[] mIds = new String[] {"ul"}; public String[] getIds(){ return (mIds)...2011-01-24 20:05:40 · 173 阅读 · 0 评论 -
robots.txt文件解读
robots.txt搜索引擎搜索网站根目录,或者是写网络爬虫,都应该有了解到robots.txt文件. 那么这个文件有什么用呢?下面我们给出它的定义及用途: 引用自:维基百科,自由的百科全书 robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获...2011-01-21 11:02:22 · 556 阅读 · 0 评论 -
Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?
Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse? 今天浪费了一天的时间花费在这上面,一开始是用Nutch1.1导入在MyEclipse与Eclipse中的,不断的尝试,不断的调试,上网查阅了太多的文章了,发现按他们每一种的方式都会出错,最后还是跟人交流之后,用自己的方式尝试成功了.好了不费话了.下面说说如何成功导入Nutch1.0而不会出错. 前期准...2011-01-21 09:54:12 · 155 阅读 · 0 评论 -
java.lang.UnsupportedClassVersionError: Bad version number in .class file
在Eclipse中运行Nutch1.1异常:java.lang.UnsupportedClassVersionError: Bad version number in .class file 修改方法: Eclipse中修改步骤如下: Window--->Preferences--->Java---->Compiler---->Compiler co...2011-01-20 14:24:41 · 93 阅读 · 0 评论 -
Nutch1.1的安装与运行
1 Nutch1.1安装与配置: 1.1 最新版Nutch1.1下载: http://www.apache.org/dyn/closer.cgi/lucene/nutch/ 1.2 最新片的Windows下模拟Linux环境工具Cygwin下载: http://www.cygwin.com/ 安装Cygwin工具,详见: http://hpjianhua.iteye.com/blog/870034...2011-01-17 11:14:43 · 204 阅读 · 0 评论 -
Nutch-1.1异常信息:No agents listed in 'http.agent.name' property
Nutch1.1异常信息如下:[code="java"]Fetcher: No agents listed in 'http.agent.name' property.Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http....2011-01-13 15:54:09 · 248 阅读 · 0 评论 -
Cygwin的安装--Nutch搜索引擎环境
以前想学习Nutcj搜索引擎的时候,总是被如何安装Cygwin模拟工具给搞下去了; 今天终于狠下决心要安装好Cygwin工具了:希望在以后的学习中对自己的工作有帮助。 首先:安装Cygwin工具有几种下载方式,我们可以直接到Cygwin的官方网站下载Cygwin的安装程序,地址是: http://www.cygwin.com/ 同时,我们也可以直接下载到在线安...2011-01-13 10:40:25 · 181 阅读 · 0 评论 -
搜索引擎的数据库设计
[size=medium]---- 一、引言 ---- 随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数,也就是我们经常所说的"Rich Data, Poor Information"。所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。 ---- 现在在网上的搜索引擎也已经有很...原创 2010-09-18 09:48:18 · 1412 阅读 · 0 评论 -
lucene3.0 中文分词实例IKAnalyzer StandardAnalyzer
之前想做lucene的中文分词,上网一搜,结果都是针对lucene2.x的,于是就写了一实例针对lucene3.x版本的,以下仅为学习交流之用;时间仓促,实例示下:[code="java"]package com.hpjianhua.lucene;import java.io.IOException;import java.io.Reader;import ja...2011-04-08 11:11:55 · 295 阅读 · 0 评论