import requests
from urllib import request
import re
# 创建一个回话
session=requests.session()
#请求携带的表单数据
form={
'form_email':'',
'form_password':''
}
def login():
login_url='https://accounts.douban.com/login'
form = {
'form_email': '',
'form_password': ''
}
#发送请求
response=session.post(login_url,data=form)
# 设置编码
response.encoding=response.apparent_encoding
# 获取数据
html=response.text
# print(html)
if 'captcha_image' in html:
# 编译正则(获取图片下载链接地址)
captcha_pat=re.compile(r'id="captcha_image" src="(.+?)"')
#搜索数据(图片)
res=captcha_pat.search(html)
#获取数据(图片链接)
captcha=res.group(1)
#写入图片文件
request.urlretrieve(captcha,'douban.png')
#编译正则(获取隐藏验证码数据)
id_pat=re.compile(r'name="captcha-id" value="(.+?)"')
#查找验证码数据
res=id_pat.search(html)
#获取验证码数据
captcha_id=res.group(1)
爬虫解决验证码,用requests创建session会话对象
最新推荐文章于 2025-11-08 15:15:19 发布
本文介绍如何利用Python的requests库中的session会话对象来应对爬虫过程中的验证码问题。通过session,我们可以保持请求之间的某些状态,提高爬取效率。

最低0.47元/天 解锁文章
1108

被折叠的 条评论
为什么被折叠?



