爬取妹子图某张图片的一点心得

开始写了如下的代码:

import requests
req = requests.get("https://i.meizitu.net/2019/01/13d01.jpg")
#这个地址来源于复制“图片地址”
with open("C://Users//Administrator//Desktop//girl.jpg","wb") as f:
    f.write(req.content)

发现桌面只创建了一个空文件。加入代码查找原因:

status_code = req.status_code
print("req.status_code:%d"%status_code)
>>>req.status_code:403

网站禁止了爬取访问。伪装一下:

import requests
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 SafarMozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
req = requests.get("https://i.meizitu.net/2019/01/13d01.jpg",headers = header)
with open("C://Users//Administrator//Desktop//girl.jpg","wb") as f:
    f.write(req.content)

还是不行,桌面仍然是空文件。查了资料发现还有Referer这个参数可以用于反爬虫。
那就把这个参数加进去,修改headers:

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 SafarMozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',"Referer" : "http://www.mzitu.com/",'Host' : 'i.meizitu.net'}
#还可以设置host

运行下:

import requests
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 SafarMozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',"Referer" : "http://www.mzitu.com/",'Host' : 'i.meizitu.net'}
req = requests.get("https://i.meizitu.net/2019/01/13d01.jpg",headers = header)
with open("C://Users//Administrator//Desktop//girl.jpg","wb") as f:
    f.write(req.content)

成功了,girl已在桌面了。
自学速度好慢呐,这个问题搞了半天。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值