
搜索引擎
Ackarlix
专注、沉着、稳重、信心、行动
展开
-
搜索引擎中网络爬虫的设计分析
搜索引擎中网络爬虫的设计分析作者:Ackarlix 下面简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。 说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里? 1】 网络爬虫高度可配置性。2】 网络爬虫可以解析抓到的网页里的链接3】 网络爬虫有简单的存储配置原创 2007-08-29 06:32:00 · 29251 阅读 · 20 评论 -
RSS网络爬虫的时间规则
RSS网络爬虫的时间规则 整理:Ackarlix挨踢网【中文IT技术社区】http://www.aitic.net RSS的网络爬虫的时间规则的设置: 设定RSS爬虫重新访问的5个级别: Level[1]=20 MinutesLevel[2]=200 MinutesLevel[3]=1000 MinutesLevel[4]=2000 Minutes原创 2008-12-25 08:41:00 · 1532 阅读 · 0 评论 -
爬虫技术研究综述
爬虫技术研究综述 整理:Ackarlix挨踢网【中文IT技术社区】http://www.aitic.net 引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口原创 2008-12-25 08:39:00 · 2176 阅读 · 1 评论 -
Sosoo 1.0网络爬虫程序
Sosoo 1.0网络爬虫程序 ---用户开发手册 编写人:王建华(rimen/jerry) 编写目的:基于sosoo定制web spider程序的编程人员。 目录 一:安装sosoo 2 二:功能定制 2 1.基本功能参数的设置。 2 2.配置机器人对url的检查 3 3:实现文件管理。 4 4.定制html文档下载规则。 4 5.设置对下载后http文档的过滤处理 5 6.启用转载 2008-10-30 10:19:00 · 2751 阅读 · 1 评论 -
中文搜索引擎技术揭密:系统架构
中文搜索引擎技术揭密:系统架构 整理:Ackarlix互联网发展的今天,一方面离 不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信转载 2007-09-03 06:45:00 · 2139 阅读 · 2 评论 -
搜索引擎排名的作用及搜索引擎排名的商业价值
搜索引擎排名的作用及搜索引擎排名的商业价值 整理:Ackarlix Google搜索引擎排名牵动商机 Patrick Ahern很清楚Google的力量,少了它,生意还真不好作。 他所任职总裁的数据复原集团(Data Recovery Group)向来在Google搜寻引擎上名列第四,而今年一月,Google在无预警的情况下将该公司排除在搜寻结果之外,结果原创 2007-09-01 06:28:00 · 3305 阅读 · 0 评论 -
网络爬虫(源代码)
网络爬虫(源代码) 作者:Ackarlixpublic class Spider implements Runnable { private ArrayList urls; //URL列表 private HashMap indexedURLs; //已经检索过的URL列表 private int threads ; //初始化线程数原创 2007-08-31 06:14:00 · 14060 阅读 · 2 评论 -
中文搜索引擎技术揭密:中文分词
中文搜索引擎技术揭密:中文分词作者Winter整理:Ackarlix 前言信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。转载 2007-09-01 06:38:00 · 1604 阅读 · 0 评论 -
搜索引擎分类与工作原理
搜索引擎分类与工作原理 整理:Ackarlix 搜索引擎分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search IndexDirectory)和元搜索引擎(Meta Search Engine)。 ■全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Go转载 2007-08-31 06:10:00 · 4215 阅读 · 0 评论 -
基于Java的高性能网络机器人的研究
基于Java的高性能网络机器人的研究整理:Ackarlix 摘要:高性能网络机器人是新一代Web智能搜索引擎的核心,网络机器人是否高效直接影响搜索引擎的效能的发挥。对开发高性能网络机器人所涉及的关键技术和算法进行了详细地分析。最后,给出了程序的关键类,有助于工程的实际应用和开发。 关键字:Web ;搜索引擎;网络机器人;Java 中图分类号转载 2007-08-30 06:46:00 · 1789 阅读 · 0 评论 -
搜索引擎算法研究
搜索引擎算法研究整理:Ackarlix1.引言 万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技原创 2007-08-30 06:44:00 · 2506 阅读 · 2 评论 -
网络爬虫(源代码参考)
网络爬虫(源代码参考)作者:Ackarlix package com.heaton.bot;import com.heaton.bot.*;import java.net.*; /** * The SpiderWorker class performs the actual work of * spidering pages. It is原创 2007-08-30 06:37:00 · 6805 阅读 · 3 评论 -
爬虫技术
爬虫技术 整理:Ackarlix引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:原创 2007-08-29 06:28:00 · 3736 阅读 · 2 评论 -
网络爬虫技术
网络爬虫技术 作者:Ackarlix 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,百度,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:原创 2007-08-29 06:35:00 · 34783 阅读 · 9 评论 -
搜索引擎创新论
搜索引擎创新论 整理:Ackarlix挨踢网【中文IT技术社区】http://www.aitic.net 前段时间作者写过一篇《论搜索引擎的创新》(以下简称《创新》),现在看来,文中的一些观点尚未过时,所以笔者打算进一步深化《创新》中的思想,当然,并不是文中所有内容现在仍坚持不变。笔者认为,理论应该与时俱进,这是理论务必要保持的一种可贵品质。 现实的创新,是搜索引擎创新原创 2008-12-25 08:42:00 · 2341 阅读 · 0 评论