
搜索引擎
文章平均质量分 94
piddock
这个作者很懒,什么都没留下…
展开
-
Java实现利用搜索引擎收集网址的程序
转自:http://tech.sina.com.cn/s/2005-12-19/1025795657.shtml我这里讲的不是怎么使用搜索引擎,而是怎么让程序利用搜索引擎来搜集网址,这有什么用?很有用!网上动辄有人叫卖网址数据库,如发布软件网址、邮件地址、论坛网址、行业网址,这些网址是怎么来的呢?不可能是人手工收集而来的,都是让程序利用搜索引擎取到的,如果您需要某类网址信息数据,就跟我...原创 2009-02-28 15:49:02 · 167 阅读 · 0 评论 -
中文搜索引擎技术揭密:中文分词
http://www.stlchina.org/twiki/bin/view.pl/Main/SESegment 中文搜索引擎技术揭密:中文分词 作者Winter首发于:e800.com.cn 前言 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引...原创 2009-02-28 15:50:55 · 192 阅读 · 0 评论 -
中文搜索引擎技术揭密:网络蜘蛛
http://www.stlchina.org/twiki/bin/view.pl/Main/SECrawlerWeb 中文搜索引擎技术揭密:网络蜘蛛 作者Winter 首发于e800.com.cn 【e800.com.cn 编者按】随着搜索经济的崛起,人 们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网...原创 2009-02-28 15:55:16 · 106 阅读 · 0 评论 -
中文搜索引擎技术揭密:系统架构
http://www.stlchina.org/twiki/bin/view.pl/Main/SEStructSys 中文搜索引擎技术揭密:系统架构 作者Winter首发于e800.com.cn 【e800.com.cn 编者按】互联网发展的今天,一方面离 不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅...原创 2009-02-28 15:56:27 · 173 阅读 · 0 评论 -
搜索引擎Nutch 0.7.2 试用笔记
http://blog.youkuaiyun.com/danny_xcz/archive/2006/05/12/725937.aspx 在Google里面搜索了一些Nutch的资料,还真不多。今天画了两个小时搞了一通,把一些心得纪录下来。我的jdk 是1.5.x ,Tomcat是5.0.x1 下载0.7.2 版本的包:里面已经包含了war文件,所以不需要Ant编译了2 安装Cygwin,这个没什...原创 2009-02-28 16:22:30 · 100 阅读 · 0 评论 -
搜索引擎重复网页发现技术分析
转自:http://www.xueboke.com/html/bokezhishi/SEOboke/200803/16-110.html 一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不...原创 2009-10-18 16:54:27 · 107 阅读 · 0 评论 -
Eclipse 6.0.0 + Heritrix 1.12.1 的配置
http://www.cnblogs.com/hejycpu/archive/2009/01/27/1381043.html Eclipse 6.0.0 + Heritrix 1.12.1 的配置 从控制台配置Heritrix,使之能运行之后,完成获取信息的基本功能是没问题的。但是Heritrix默认的功能,比较类似于离线浏览器,把所有的信息都抓下来了。尽管He...原创 2009-10-22 14:17:09 · 257 阅读 · 0 评论 -
什么是网络爬虫程序?
转自:http://space.itpub.net/29867/viewspace-160091 一、爬虫技术研究综述 引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问...原创 2009-08-07 14:47:59 · 156 阅读 · 0 评论 -
谈谈网络爬虫设计中的问题
转自:http://www.cnblogs.com/onlytiancai/archive/2008/04/19/1161425.html 网络蜘蛛现在开源的已经有好几个了,Larbin,Nutch,Heritrix都各有用户之地,要做一个自己的爬虫要解决好多个问题,比如调度算法、更新策略、分布式存储等,我们来一一看一下。一个爬虫要做的事主要有以下这些从一个网页入口,分析链接,...原创 2009-08-07 14:58:12 · 121 阅读 · 0 评论