爬虫的一些知识点 目录 1. 网络爬虫 1 2. 产生背景 垂直领域搜索引擎 2 3. 1 聚焦爬虫工作原理以及关键技术概述 3 4. 涉及技术 3 4.1. 下载网页 一般是通过net api

爬虫的一些知识点

 

目录

1. 网络爬虫 1

2. 产生背景 垂直领域搜索引擎 2

3. 1 聚焦爬虫工作原理以及关键技术概述 3

4. 涉及技术 3

4.1. 下载网页  一般是通过net api 3

4.2. 分析网页(html分析,接口可能有json 3

5. 分类 3

5.1. 通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 4

5.2. 聚焦网络爬虫 4

5.3. Deep Web 爬虫 4

6. 网页分析算法 5

6.1. 网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。 5

7. 言归正传,java实现网络爬虫一般有五种方法 7

7.1. 2.基于HttpURLConnection类编写爬虫:java se的net包的核心类,主要用于http的相关操作。简单 7

7.2. 3.基于apache的HttpClient包编写爬虫:由net包拓展而来,专为java网络通信编程而服务。常用 7

7.3. 5.基于Selenium或者是WebDriver之类的有头(有界面)浏览器。。适合于复杂界面 8

8. 核心代码范例 8

8.1. 下载网页 8

 

 

  1. 网络爬虫

(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚

 

爬虫目的::为了获取数据,就是通过url接口  web gui接口来获取数据

操作web自动化(自动化注册,批量注册机,发帖机,点赞器)

自动化测试

  1. 产生背景 垂直领域搜索引擎

编辑

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值