爬虫在采集网站的过程中,部分数据价值较高的网站,会限制访客的访问行为。这种时候建议通过登录的方式,获取目标网站的cookie,然后再使用cookie配合代理IP进行数据采集分析。
1 使用表单登陆
这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。
#! -*- encoding:utf-8 -*- import requests import random import requests.adapters # 要访问的目标页面 targetUrlList = [ "https://httpbin.org/ip", "https://httpbin.org/headers", "https://httpbin.org/user-agent", ] # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理隧道验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%
Python爬虫:模拟登录获取隐藏数据教程

本文介绍如何使用Python爬虫处理需要登录后才能访问的数据。讲解了通过表单POST请求和使用cookie来模拟登录,以及面对验证码情况的处理策略,帮助你成功采集登录后的内容。
最低0.47元/天 解锁文章
390

被折叠的 条评论
为什么被折叠?



