先说说思路
首先,遍历遍历糗事百科的每一页的url,为每一页创建一个文件夹,并得到每一页的所有图片的url,再用content得到每一张图片的二进制数据,并try将其写入一个文件,若写入文件失败则输出failed,以此过滤保存失败的图片
直接上代码
import requests
import os
from bs4 import BeautifulSoup
def getimgurl(pageurl):
r=requests.get(pageurl)
html=r.content
soup=BeautifulSoup(html,'lxml')
body=soup.body
#find_all()返回一个列表
data=body.find_all('div',{
'class':'thumb'})
#图片url数组
imgurls=[]
for ii in data:
ul