python小练——下载指定url中的图片

最新推荐文章于 2025-06-06 12:26:13 发布

转载最新推荐文章于 2025-06-06 12:26:13 发布 · 167 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/lyroge/archive/2011/08/19/2145978.html

文章标签：

#python

本文介绍了一个简单的Python脚本，用于从指定URL下载所有图片。通过解析HTML源代码，提取所有<img>标签内的src属性，然后将这些图片保存到本地指定路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python小练——下载指定url中的图片

#coding=gbk
#download pictures of the url
#useage: python downpicture.py www.baidu.com

import os
import sys
from html.parser import HTMLParser
from urllib.request import urlopen
from urllib.parse import urlparse

def getpicname(path):
    '''    retrive filename of url        '''
    if os.path.splitext(path)[1] == '':
        return None
    pr=urlparse(path)
    path='http://'+pr[1]+pr[2]
    return os.path.split(path)[1]

def saveimgto(path, urls):
    '''
    save img of url to local path
    '''
    if not os.path.isdir(path):
        print('path is invalid')
        sys.exit()
    else:
        for url in urls:
            of=open(os.path.join(path, getpicname(url)), 'w+b')
            q=urlopen(url)
            of.write(q.read())
            q.close()
            of.close()

class myhtmlparser(HTMLParser):
    '''put all src of img into urls'''
    def __init__(self):
        HTMLParser.__init__(self)
        self.urls=list()
        self.num=0
    def handle_starttag(self, tag, attr):
        if tag.lower() == 'img':
            srcs=[u[1] for u in attr if u[0].lower() == 'src']
            self.urls.extend(srcs)
            self.num = self.num+1

if __name__ == '__main__':
    url=sys.argv[1]
    if not url.startswith('http://'):
        url='http://' + sys.argv[1]
    parseresult=urlparse(url)
    domain='http://' + parseresult[1]

    q=urlopen(url)
    content=q.read().decode('utf-8', 'ignore')
    q.close()

    myparser=myhtmlparser()
    myparser.feed(content)

    for u in myparser.urls:
        if (u.startswith('//')):
            myparser.urls[myparser.urls.index(u)]= 'http:'+u
        elif u.startswith('/'):
            myparser.urls[myparser.urls.index(u)]= domain+u

    saveimgto(r'D:\python\song', myparser.urls)
    print('num of download pictures is {}'.format(myparser.num))