TSE-网页搜集结构

1、描述:

   网页搜集的过程是从URL库(初始时包含用户指定的起始种子URL集合,可以是1个或多个)获得输入,解析URL中标明的Web服务器地址、建立连接、发送请求和接收数据,将获得的网页数据存储在原始网页库,并从其中提取出链接信息放入网页结构库,同时将待抓取的URL放入URL库,保证整个过程的递归进行,直到URL库为空。
   搜索引擎为了提供检索服务,需要保存网页原文。网页搜集子系统不但要能够获取以.html, .htm,.txt结尾的URL对应的网页(在本章后面的小节对于搜集信息类型会有更详细的阐述),还应该能够获取不是以.html结尾的URL,比如.pdf,.doc,因为.pdf,.doc等文件可以通过转换程序生成为.html或者.txt文件,同样为搜索引擎提供检索服务。作为搜索引擎的起始流程,搜集的网页要按照一定的格式存储,便于后续组织和提供服务。
2、图示
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值