Python爬虫相关自用01

本文介绍了HTTP协议的基础知识,包括robot.txt的使用、常见请求与响应头信息,并概述了简单的爬虫实现步骤,如URL指定、请求发送及数据存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

君子协议:robot.txt 告诉什么可以爬取什么不可以

http协议

常用请求头信息:

user-Agent :请求人的身份

-connection:请求完毕后是断开连接还是继续连接

常用响应头信息:

-content-type :服务器响应返回客户端的数据类型

https协议(证书秘钥加密):

表示安全的http协议-安全的超文本传输协议,在http传输基础上加密

加密方式:

-对称秘钥加密

-非对称秘钥加密

-证书秘钥加密

F12看网站相关响应数据

 

简单爬虫:指定url,发起请求,接收数据,持久化存储

二、简单网页采集器(主要键值对要跟浏览器一样,特别是headers里面的,键和值都要跟浏览器的一样)

三、接收post请求,json数据

四、get请求的json数据

 总结:基础爬虫主要以下几步

1、指定爬取的url

2、伪装成浏览器去发送请求

3、获取到请求

4、持久化数据

学会用F12来分析需要爬取页面,那些是需要传的参数,那个是url,返回是什么类型的结果

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值