Python爬虫入门

爬虫学习

爬虫的简介

爬虫,又称为网络蜘蛛,即爬虫网页中的内容,通俗的来将就是将网页中的数据提取处理,并且保存到本地,来进行后续的操作。

爬虫,遵循所见即所爬原则,也就是说只能爬取到看的见的数据,看不见的数据就无法提取了。

爬虫,要在合法的范围内进行爬取,切记,有关国家政府等机关的网站,碰都不要碰下。

爬虫流程

1.确定url

2.发送请求,获取响应

3.提取响应

4.保存数据,进行后续操作

爬虫爬取的是响应,也就是 ElementsNetwork 中的内容。

如何查看响应内容,在浏览器中,按下F12 键 来打开 开发者工具

报文的简介

这里以百度为例,讲解部分重要的报文信息。

Request URL: # 请求url
https://www.baidu.com/ 
Request Method: # 请求方式
GET
Status Code: # 状态码
200 OK
Remote Address: # 目标服务器的ip地址 (不一定真实)
180.101.50.242:443 
Referrer Policy:
strict-origin-when-cross-origin
connection: # 链接类型
keep-alive # 保持状态
content-encoding: # 压缩网站的资源 来加载网页,提升访问速度和省流
gzip
content-security-policy:
frame-ancestors 'self' https://chat.baidu.com http://mirror-chat.baidu.com https://fj-chat.baidu.com https://hba-chat.baidu.com https://hbe-chat.baidu.com https://njjs-chat.baidu.com https://nj-chat.baidu.com https://hna-chat.baidu.com https://hnb-chat.baidu.com http://debug.baidu-int.com;
content-type:
text/html; charset=utf-8 # 网页的类型
date:
Sun, 08 Dec 2024 08:48:06 GMT
isprivate:
1
server:
BWS/1.1
set-cookie: # 设置cookie
H_PS_PSSID=61027_61219_61238_61286_61299_60851; path=/; expires=Mon, 08-Dec-25 08:48:06 GMT; domain=.baidu.com
traceid:
1733647686064072500215700831173387519682
transfer-encoding:
chunked

x-ua-compatible:
IE=Edge,chrome=1
x-xss-protection:
1;mode=block

accept:
text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
accept-encoding:
gzip, deflate, br, zstd
accept-language:
zh-CN,zh;q=0.9
cache-control:
max-age=0
connection:
keep-alive
cookie: # cookie值
BAIDUID=C155054FF20275AE910502293C199919:FG=1; PSTM=1706779018; BIDUPSID=C5545CC11C26AB48970156B609268488; BDUSS=lwQWtzNkxleWYyN09zRzVKTXpmWERiNGd3ZGJZa0xHMkVERThoalVwakJmWnBtSVFBQUFBJCQAAAAAAAAAAAEAAAAHx--u1LTUtMrH1ea1xLrDv7QAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMHwcmbB8HJmen; BDUSS_BFESS=lwQWtzNkxleWYyN09zRzVKTXpmWERiNGd3ZGJZa0xHMkVERThoalVwakJmWnBtSVFBQUFBJCQAAAAAAAAAAAEAAAAHx--u1LTUtMrH1ea1xLrDv7QAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMHwcmbB8HJmen; BD_UPN=12314753; MCITY=-178%3A; newlogin=1; H_WISE_SIDS_BFESS
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值