
爬虫部分
克莱默申克
这个作者很懒,什么都没留下…
展开
-
python加cookie爬取知乎主页
from urllib import requestzhihu_url="https://www.zhihu.com/"headers={ "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36", "cookie":'_zap=395a375b-c978-4b13-b79d-ce2268ef8原创 2020-05-11 17:46:05 · 353 阅读 · 0 评论 -
ProxyHandler处理
python爬虫中解决被网站禁止访问的方法*代理服务器,ProxyHeader实现IP代理代理的数据格式为字典key : http/httpsvalue 代理IP地址+端口号httpbin.org可以方便查看http请求的一些参数方法:/ip,/get使用代码代理from urllib import requesturl='httpbin.org/ip'handler=request.ProxyHandler({http:"<你要获得的代理ip>"})opener=r原创 2020-05-10 23:33:09 · 303 阅读 · 1 评论 -
python urllib中urlparse和urlsplit区别
from urllib import parseurl='https://www.baidu.com/s?wd=python&username=asd#1'urlparseresult1=parse.urlparse(url)print(result1.scheme)print(result1.netloc)print(result1.path)print(result1....原创 2020-05-08 10:37:54 · 688 阅读 · 0 评论 -
pyhton爬虫urllib常用库函数
下面以百度首页为例,介绍python自带的request库urllib库中几个函数from urllib import requestfrom urllib import parseresp= request.urlopen("http://www.baidu.com")**#urlopen抓取网站上所有源代码 ''按住ctrl+b 与鼠标点击可迅速得到函数原型,返回文件句柄对象**...原创 2020-05-08 10:32:42 · 249 阅读 · 0 评论