
爬虫
燕山之边
从事IT行业喜欢编程解决问题
展开
-
Python爬虫之cookie加载
不耽误时间,上代码:from urllib import requestfrom http.cookiejar import MozillaCookieJarcookiejar_jiazai = MozillaCookieJar('cookiesave.txt')cookiejar_jiazai.load()handler_jiazai = request.HTTPCookieProcessor(cookiejar_jiazai)opener_jiazi = request.build_..原创 2022-04-10 20:47:05 · 2682 阅读 · 0 评论 -
Python爬虫之cookie保存
http.cookiejar的MozillaCookieJar模块可以将cookie以文本形式保存的本地指定路径,直接上代码:from urllib import requestfrom http.cookiejar import MozillaCookieJarcookie_save=MozillaCookieJar('cookiesave.txt') #这里如果不写文件名,在save保存里必须写hander=request.HTTPCookieProcessor(cookie_save).原创 2022-04-09 21:02:22 · 2458 阅读 · 0 评论 -
Python 爬虫 cookie实战
from urllib import requestfrom urllib import parsefrom http.cookiejar import CookieJarheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}cookieer=Cookie..原创 2022-04-08 19:04:34 · 978 阅读 · 0 评论 -
Python 爬虫应该了解Cookie
首先要了解的是cookie结构:根据网上查询其结构如下Set-Cookie:NAME=VALUE;Expires/Max-age=DATE;Path=PATH; Domain=DOMAIN_NAME;SECURE结构变量的含义NAME:cookie 的nameVALUE:cookie 值,动态值DOMAIN:服务器域名Expires:Cookie 有效和终止日期PATH:属性定义了页面可获取服务器设置的 Cookie路径HttpOnly:防攻击SECURE .原创 2022-04-07 19:25:19 · 921 阅读 · 0 评论 -
Python 爬虫urllib之request.ProxyHandler代理
ProxyHandler函数用于网站封IP, 如果同一个IP访问过于频繁,那么该网站就会禁止来自该IP的访问,因此使用代理可以达到我们的目的。代理地址从哪里找呢,打开 http://httpbin.org(httpbin.org)可以找到代理地址,好了不废话了开始代码吧:from urllib import requesturl='http://httpbin.org/ip'#使用ProxyHandler,传入代理构建一个handlerhander=request.ProxyHandle原创 2022-04-06 21:30:17 · 5678 阅读 · 0 评论 -
python 爬虫之URLlib之request.Request
request.Request用于请求页面数据数据,与urlopen函数相比,功能更强大,可以带参数。比如头文件请求。函数原型:urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)url 要请求的urldata data必须是bytes(字节流)类型,如果是字典,可以用urllib.parse模块里的urlencode()编...原创 2022-04-05 12:46:44 · 3555 阅读 · 0 评论 -
python 爬虫之URLlib的编码和解码
urlencode函数:编码from urllib import parsedata = {'name':'张三','age':28,'greet':'hello!'}qs = parse.urlencode(data)print(qs)parse_qs函数:解码print(parse.parse_qs(qs))可以将经过编码后的url参数进行解码使用方法有urlunparse() 通过长度为6的可迭代对象urlunsplit() 通过长度为5的可迭代对象u原创 2022-04-04 12:50:36 · 1629 阅读 · 0 评论 -
python 爬虫 urllib之urlretrieve函数
from urllib import requesturl='https://www.baidu.com/' request.urlretrieve(url,'d:\test.html') 将url保存到d盘原型:urlretrieve(url, filename=None, reporthook=None, data=None)参数 url 指定要下载的页面参数 finename 指定保存本地路径参数 reporthook 是一个回调函数参数 data 指 post 到服务器的.原创 2022-04-03 21:27:52 · 796 阅读 · 0 评论