这算是比较贴近于实际生活的爬虫了,根据用户输入的关键字批量下载今日头条相关图集图片,,核心用到了urllib.request.urlretrieve()这个方法,然后百度了一下进度条怎么玩,直接把代码加上去了,没毛病,感觉代码有些复杂,其实理论上一层网页可以将所需额图片都爬取下来,但是当时担心出现问题,就多添加了一层网页url分析,主要用的还是json分析,这些都相对简单的,关键一层一层网页间的url链接分析,当时写的时候听懵逼的,循环太多(其实写完后再去看看还是一脸懵逼,怀疑是不是自己写的),
此次下载的是fate相关的图片,因为是ajax异步加载,这个其实很好控制的,但是网页数量太多,加上有等待时间,就没有加载太多网页直接上代码吧,(感觉注释挺明了的)
import requests
from bs4 import BeautifulSoup
from skimage import io
import urllib
import re
import time
import json
headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
,'Accept':'application/json, text/javascript'
,'Host':'www.toutiao.com'
,'Connection':'keep-alive'
,'Accept-Encoding':'gzip, deflate'
,'Accept-Language':'zh-CN,zh;q=0.8'
,'Upgrade-Ins