爬虫的一些知识点目录 1. 网络爬虫 1 2. 产生背景垂直领域搜索引擎 2 3. 1 聚焦爬虫工作原理以及关键技术概述 3 4. 涉及技术 3 4.1. 下载网页一般是通过net api

最新推荐文章于 2024-01-06 16:07:58 发布

原创

最新推荐文章于 2024-01-06 16:07:58 发布 · 1.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

爬虫的一些知识点

目录

1. 网络爬虫 1

2. 产生背景垂直领域搜索引擎 2

3. 1 聚焦爬虫工作原理以及关键技术概述 3

4. 涉及技术 3

4.1. 下载网页一般是通过net api 3

4.2. 分析网页（html分析，接口可能有json 3

5.1. 通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。 4

5.2. 聚焦网络爬虫 4

5.3. Deep Web 爬虫 4

6. 网页分析算法 5

6.1. 网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。 5

7. 言归正传，java实现网络爬虫一般有五种方法 7

7.1. 2.基于HttpURLConnection类编写爬虫：java se的net包的核心类，主要用于http的相关操作。简单 7

7.2. 3.基于apache的HttpClient包编写爬虫：由net包拓展而来，专为java网络通信编程而服务。常用 7

7.3. 5.基于Selenium或者是WebDriver之类的有头（有界面）浏览器。。适合于复杂界面 8

8. 核心代码范例 8

8.1. 下载网页 8

网络爬虫

（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚

爬虫目的：：为了获取数据，就是通过url接口 web gui接口来获取数据

操作web自动化（自动化注册，批量注册机，发帖机，点赞器）

自动化测试

产生背景 垂直领域搜索引擎

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。