Python多线程爬取网站图片

最新推荐文章于 2025-06-10 10:50:33 发布

原创最新推荐文章于 2025-06-10 10:50:33 发布 · 785 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#Python多线程

Python 专栏收录该内容

18 篇文章

订阅专栏

本文介绍了一种利用Python多线程技术优化网络资源下载效率的方法，通过并行下载避免了单线程爬虫可能遇到的阻塞问题，提高了爬虫的稳定性和速度。文章详细展示了如何使用Python的threading模块创建和管理线程，以及如何使用线程锁确保数据的安全写入。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多线程执行爬虫避免某个网络资源卡住其他资源下载；

Python线程相关知识点：

import threading 引入线程
t = Thread(target,args=None) 定义一个线程
t.start() 线程开始
t.setDaemon(False) 默认设置线程后台模式运行；
t.setDaemon(True) 设置线程前台模式运行；
t.join （当前程序）等待线程t执行完毕；
lock=threading.RLOCK() 创建线程锁对象
lock.acquire() 强迫lock获取线程锁，如果被占用则等待
lock.release() 释放锁



from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import urllib.request
import threading

def imageSpider(start_url):
    global threads
    global count
    try:
        urls=[]
        req=urllib.request.Request(start_url,headers=headers)
        data = urllib.request.urlopen(req)
        data=data.read()
        dammit=UnicodeDammit(data,["utf-8","gbk"])
        data=dammit.unicode_markup
        soup=BeautifulSoup(data,"html.parser")
        images=soup.select("img")
        print (images)
        for image in images:
            try:
                src=image["src"]
                url = urllib.request.urljoin(start_url,src)
                if url not in urls:
                    urls.append(url)
                    print (url)
                    count=count+1
                    T=threading.Thread(target=download,args=(url,count))
                    T.setDaemon(False)
                    T.start()
                    threads.append(T)
            except Exception as err:
                print (err)
    except Exception as err:
        print (err)

def download(url,count):
    try:
        if(url[len(url)-4]=="."):
            ext=url[len(url)-4:]
        else:
            ext=".jpg"
        req=urllib.request.Request(url,headers=headers)
        data = urllib.request.urlopen(req,timeout=100)
        data=data.read()
        fobj=open("images\\"+str(count)+ext,"wb")
        fobj.write(data)
        fobj.close()
        print ("downloaded"+str(count)+ext)
    except Exception as err:
        print (err)


start_url="https://www.youkuaiyun.com/"
headers={"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9pre) Gecko/2008072421 Minefield/3.0.2pre"}
count=0
threads=[]
imageSpider(start_url)
for t in threads:
    t.join()
print("the End")