[python爬虫小实战2]根据用户输入关键词爬取今日头条图集,并批量下载图片

这篇博客介绍了一个使用Python爬虫根据用户输入的关键词,从今日头条抓取相关图集并批量下载的实战案例。核心代码利用urllib.request.urlretrieve()方法,并添加了进度条功能。尽管代码因多层网页URL分析显得复杂,但通过JSON解析实现了图片的获取。由于网页采用AJAX异步加载,作者控制了下载数量。在处理文件命名时遇到问题,最终选择使用图片URL的一部分作为文件名,避免覆盖。作者表示代码仍有改进空间,欢迎大家测试。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这算是比较贴近于实际生活的爬虫了,根据用户输入的关键字批量下载今日头条相关图集图片,,核心用到了urllib.request.urlretrieve()这个方法,然后百度了一下进度条怎么玩,直接把代码加上去了,没毛病,感觉代码有些复杂,其实理论上一层网页可以将所需额图片都爬取下来,但是当时担心出现问题,就多添加了一层网页url分析,主要用的还是json分析,这些都相对简单的,关键一层一层网页间的url链接分析,当时写的时候听懵逼的,循环太多(其实写完后再去看看还是一脸懵逼,怀疑是不是自己写的),
此次下载的是fate相关的图片,因为是ajax异步加载,这个其实很好控制的,但是网页数量太多,加上有等待时间,就没有加载太多网页直接上代码吧,(感觉注释挺明了的)

import requests
from bs4 import BeautifulSoup
from skimage import io
import urllib
import re
import time
import json
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
    ,'Accept':'application/json, text/javascript'
    ,'Host':'www.toutiao.com'
    ,'Connection':'keep-alive'
    ,'Accept-Encoding':'gzip, deflate'
    ,'Accept-Language':'zh-CN,zh;q=0.8'
    ,'Upgrade-Ins
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值