Python爬虫之headers和data的获取

本文介绍如何使用F12工具获取headers和data信息,以实现更高效的网页爬取。通过具体案例,如ipipnet和电驴登录界面,详细展示了headers和data的获取方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python爬虫之headers和data的获取

在用爬虫爬取网页数据时,有些网站需要登录后才能爬取内容,还有很多网站会识别是否是由浏览器发出的请求,如果不是会拒绝请求,这个时候就需要模拟浏览器发出请求

#一、headers的获取
就以ipipnet为例:https://www.ipip.net/

打开网页,按下F12键,如下图所示:

点击下方标签中的Network,如下:

在这里插入图片描述

接下来刷新网页,找到下图红框中name为www.ipip.net的标签并点击,在右边的显示内容选择headers标签,就可以查看到所需要的headers信息。

在这里插入图片描述

在这里插入图片描述

下图中红框中就是我们要的headers信息
在这里插入图片描述

一般只需要添加User-Agent这一信息就足够了,headers同样也是字典类型;

user_agent = Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' 
headers = { 'User-Agent' : user_agent } 

二、data获取

以电驴登录界面为例:http://secure.verycd.com/signin

按下F12键,如下图所示:
在这里插入图片描述

点击Network,然后随意输入用户名和密码,点击登录可以看到如下图所示:
在这里插入图片描述

data信息在From Data标签中:

data={
	username: “18888888888”,
	password: “8888888888”,
	continue: “http://www.verycd.com”,
	fk: “”,
	save_cookie: 1,
	login_submit: “登录”
}

每一个登录网站的data信息不一定一样,都需要进入网页确定。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值