python爬虫之快速构造标准格式headers

最新推荐文章于 2025-03-31 23:38:05 发布

原创最新推荐文章于 2025-03-31 23:38:05 发布 · 5.3k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #head #http头信息 #字典推导式

爬虫专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种利用Python快速生成HTTP请求Header头字典的方法，适用于爬虫开发及自动化测试场景，通过简单的代码实现高效便捷的操作。

0x01 源码

a = '''
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.8
Cache-Control:max-age=0
Connection:keep-alive
Cookie:uuid_tt_dd=1480340313111808904_20170920; Hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1505918405; Hm_lpvt_6bcd52f51e9b3dce32bec4a3997715ac=1505918410; dc_tos=owl22x; dc_session_id=1505918405193_0.8442837642502332; __message_sys_msg_id=0; __message_gu_msg_id=0; __message_cnel_msg_id=0; __message_district_code=000000; __message_in_school=0
Host:www.csdn.net
If-Modified-Since:Wed, 20 Sep 2017 14:20:09 GMT
If-None-Match:W/"59c27919-18436"
Upgrade-Insecure-Requests:1
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36
'''

print({i.split(":",1)[0]:i.split(":")[1] for i in a.split("\n")[1:-1]})

0x02 故事背景

我们在制作爬虫、编写自动访问、用户名密码爆破等一系列与网站自动化交互的脚本时，往往离不开header头的制作，从浏览器上一个一个粘贴，然后制作成字典形式，忒费劲，至少俺是这么想的

自从构造了半自动化生成生成header头后，腰也不疼了，腿也不酸了，一口气爬到七楼都不用喘气了，贼开心

废话不多说，上图

这里写图片描述

0x03 代码解析

在此之前，俺再赘述一下，找到要操作的网站

F12（笔者用的是谷歌浏览器）- network（如果没有东西的话，刷新一下网页就好了）- 选择第一个链接 - headers-Request Headers-复制自己所需要的就好了

上图
这里写图片描述

用三引号包裹粘贴的headers信息，因为三引号支持多行文本
以换行符分割
```
a.split("\n")[1:-1]
```
此时返回一个列表，列表元素是各行的字符串，后面的切片操作是因为，咱们在赋值a的时候在开头三引号后面加了回车，结尾的三引号前面加了回车，为了去除这两个回车
将每一个的字符串以 : (冒号分割),并且指定分割一次
```
i.split(":",1) for i in a.split("\n")[1:-1]
```
此时返回的是n（行数）个列表，每个列表有两个元素，第一个是冒号之前的元素，第二个是冒号之后的元素

之所以没有re模块来进行多个分隔符进行分割的原因就是，冒号的分割只能进行一次，比如header头里面的

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0

value的值里面存在了冒号，如果分割多次的话，便会产生bug
将每一个列表里的第一个值作为字典里面的key，第二个值作为字典里的value
```
{i.split(":",1)[0]:i.split(":",1)[1] for i in a.split("\n")[1:-1]}
```
gameover