[python爬虫小实战2]根据用户输入关键词爬取今日头条图集，并批量下载图片

karmalk

于 2017-08-07 14:09:16 发布

阅读量4.7k

点赞数 1

分类专栏： python爬虫文章标签： python 今日头条爬虫图片

本文链接：https://blog.youkuaiyun.com/karmacode/article/details/76836522

版权

这篇博客介绍了一个使用Python爬虫根据用户输入的关键词，从今日头条抓取相关图集并批量下载的实战案例。核心代码利用urllib.request.urlretrieve()方法，并添加了进度条功能。尽管代码因多层网页URL分析显得复杂，但通过JSON解析实现了图片的获取。由于网页采用AJAX异步加载，作者控制了下载数量。在处理文件命名时遇到问题，最终选择使用图片URL的一部分作为文件名，避免覆盖。作者表示代码仍有改进空间，欢迎大家测试。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这算是比较贴近于实际生活的爬虫了，根据用户输入的关键字批量下载今日头条相关图集图片，，核心用到了urllib.request.urlretrieve()这个方法，然后百度了一下进度条怎么玩，直接把代码加上去了，没毛病，感觉代码有些复杂，其实理论上一层网页可以将所需额图片都爬取下来，但是当时担心出现问题，就多添加了一层网页url分析，主要用的还是json分析，这些都相对简单的，关键一层一层网页间的url链接分析，当时写的时候听懵逼的，循环太多（其实写完后再去看看还是一脸懵逼，怀疑是不是自己写的），
此次下载的是fate相关的图片，因为是ajax异步加载，这个其实很好控制的，但是网页数量太多，加上有等待时间，就没有加载太多网页直接上代码吧，（感觉注释挺明了的）

import requests
from bs4 import BeautifulSoup
from skimage import io
import urllib
import re
import time
import json
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
    ,'Accept':'application/json, text/javascript'
    ,'Host':'www.toutiao.com'
    ,'Connection':'keep-alive'
    ,'Accept-Encoding':'gzip, deflate'
    ,'Accept-Language':'zh-CN,zh;q=0.8'
    ,'Upgrade-Ins

最低0.47元/天解锁文章