爬虫课程一(爬虫的概念与HTTP的复习)

本文介绍了爬虫的学习价值,概念,分类及其用途,强调了通用和聚焦爬虫的工作原理。同时,回顾了HTTP协议,包括请求过程、请求报文格式和常见请求头,探讨了Robots协议的重要性。

目前在学习爬虫的课程

以下小坐总结:

第一天主要看了以写爬虫的原理以及爬虫数据的抓取

1.1:为什么学习爬虫

最主要的是在目前看来,爬虫工程师属于紧缺型人才,并且薪资待遇普遍较高

1,学习爬虫,可以私人定制一个搜索引擎。

2,大数据时代,要进行数据分析,首先要有数据源

3,对于很多SEO从业者来说,从而可以更好的进行搜索引擎优化。

1.2爬虫的概念

什么是网络爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人)爬虫就是模拟客户端发送网络请求,

接受请求对应的响应,一种按照一定规则,自动抓取互联网信息的程序。

只要是客户端(主要指浏览器)能做的事情,原则上,爬虫都能够做。

换言之,只要人能能够正常访问的网页,爬虫在具备同等资源的情况下就一定能抓取到。

1.3 爬虫的用途

主要用途:数据采集

其他用途:各种抢购,12306抢票。投票刷票,短信轰炸,网络攻击,web漏洞扫描器

1.4 爬虫的分类

通用爬虫:通常指搜索引擎和大型服务提供商的爬虫

聚焦爬虫:针对特定网站的爬虫,定向的获取明发面数据的爬虫

    累计式爬虫:从开始到结束,不断的爬取,过程中会进行去重操作。

    增量式爬虫:已下载网页采取增量式更新和只爬取新产生的或者已经发生变化网页的爬虫

    DEEP WEB爬虫: 不能通关过静态

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值