Python网络爬虫之用户名密码及验证码登陆

本文介绍了Python网络爬虫如何处理登录情况,包括使用表单POST请求进行登录和利用cookie实现已登录状态。在遇到验证码时,需要通过手动获取cookie来解决。以爬取知乎为例,使用requests库,根据config.ini配置文件中的用户名和密码尝试登录,若失败则使用cookie。登录成功标志是HTML文件中包含用户信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于登陆情况的处理

1.1 使用表单登陆

这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。

data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests:data为dict,json
	import requests
	response = requests.post(url=url, data=data)
Urllib2:data为string
	import urllib, urllib2    
	data = urllib.urlencode(data)
	req = urllib2.Request(url=url, data=data)
	response = urllib2.urlopen(req)

1.2 使用cookie登陆

使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。

import requests			
requests_session = requests.session() 
response = requests_session.post(url=url_login, data=data) 

若存在验证码,此时采用response = requests_session.post(url=url_login, data=data)是不行的,做法应该如下:

评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值