
搜索引擎开发
文章平均质量分 79
半熟的皮皮虾
这个可以保密吗?
展开
-
Nutch开发中一些文章中不同的观点--搜索页面高亮关键字的修改
在搜索一些文章中看到,nutch的高亮关键字的调整是通过修改源码来调整的,这一点是可以实现,但是比较麻烦,近段时间一直在研究Nutch,怕一些经验丢失了,就到这里来保存一下,一方面是为了温故而知新,另一方面可算是以抛砖引玉了吧。nutch搜索页面高亮关键字最简单的修改方法:找到webapps/nutch-1.1/include/style.html修改最下面的.highlight{ font-weight:bold; color:#ff0000 } 追加上面加粗背景为红色这一行,颜色定义为红色保存后,原创 2010-07-13 10:27:00 · 1022 阅读 · 1 评论 -
Nutch乱码的问题---对于一些老文章做的新调整
网上已经有很多关于解决乱码问题的帖子,在这里我所说的是解决cache(网页快照)页面的乱码的问题,而且网页快照乱码解决后,是支持各类编码的网页都能正常显示,而不再出现乱码。原来的文章都是只针对一种编码,例如utf-的页面显示正常,但是GBK的就会出现乱码原来的修改:content=new string(bean.getcontent(details));修改为:content=new string(bean.getcontent(details),"utf-8")这样处理,则会出现gb2312,gbk编码的原创 2010-07-13 10:46:00 · 2009 阅读 · 0 评论 -
nutch界面部分的修改
<br />在nutch界面部分的修改中,有些内容都是已经定义好的,不是所有的都要修改jsp源码即可实现<br />例如搜索页面的title,快照页文字等<br />按如下方法实现:<br />1、以中文页面为例:<br />修改:web-inf/classes/org/nutch/jsp/search-zh-properties<br />title = /u67e5<br />search = /u641c/u7d22<br />hits = /u7b2c<b>{0}-{1}</b>/u9879 (/原创 2010-07-13 10:58:00 · 1039 阅读 · 0 评论 -
nutch 搜索页面摘要文字显示多少的调整与其它文章不敢苟同的一点意见。
<br />在有些文章中,调整快照页面的多少,需要针对源码进行编辑,然后进行重新编译,也可能是我理解错误,在索引长度调整后,对于摘要部分的显示多少,我个人认为是没有影响的。即便是有影响,这种调整方式也有点麻烦了,我是采取了修改nutch-site.xml的方法进行了简单的修改就实现了摘要长度的变化。<br />完整代码如下:修改的文件为webapps中的WEB-INF/classes/<br /><?xml version="1.0"?><br /><?xml-stylesheet type="text/x原创 2010-07-13 11:20:00 · 1212 阅读 · 1 评论 -
nutch 提高搜索精度
<br />private boolean getTextHelper(StringBuffer sb, Node node, <br /> boolean abortOnNestedAnchors,<br /> int anchorDepth) {<br /> if ("script".equalsIgnoreCase(node.getNodeName())) {<br /> return false;<br /> }<br /> if ("style".equalsIgnoreCase(n原创 2010-07-14 11:34:00 · 523 阅读 · 0 评论