python爬取糗事百科超搞笑图片

最新推荐文章于 2021-02-07 21:17:53 发布

原创

最新推荐文章于 2021-02-07 21:17:53 发布 · 579 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #爬取图片

本文介绍如何使用Python爬虫遍历糗事百科的页面，抓取每一页的图片URL，将图片二进制数据保存到本地。通过分析代码，强调了find_all()返回列表、URL路径截取、二进制写入文件等关键点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先说说思路

首先，遍历遍历糗事百科的每一页的url，为每一页创建一个文件夹，并得到每一页的所有图片的url，再用content得到每一张图片的二进制数据，并try将其写入一个文件，若写入文件失败则输出failed，以此过滤保存失败的图片

直接上代码

import requests
import os
from bs4 import BeautifulSoup
def getimgurl(pageurl):
    r=requests.get(pageurl)
    html=r.content
    soup=BeautifulSoup(html,'lxml')
    body=soup.body
    #find_all()返回一个列表
    data=body.find_all('div',{
   
   'class':'thumb'})
    #图片url数组
    imgurls=[]
    for ii in data:
        ul