- Python 多媒体文件下载(利用urllib) [ 笔记 ]

本文介绍如何使用Python的urllib模块的urlretrieve()方法从指定网页下载图片,包括网络请求、网页解析及图片下载的完整流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

 

语法说明

举个栗子


语法说明

urllib模块的urlretrieve()方法,可以直接远程数据下载到本地:

语法:

urlretrieve(url, filename=None, reporthook=None, data=None, context=None)

参数说明
url 
filename指定了本地的存储路径,如果这里没有指定参数,urllib会生成一个临时的文件用于存放
reporthook是一个回调函数,当连接上服务器以及相应的数据块都已经下载完毕的话,可以调用这个函数来显示一些进度
data指post到服务器的参数,该方法返回一个元组,这个元组包含了filename和headers,filename表示保存到本地的路径,而headers表示服务器的响应头
context 

这块就比较简单,因为整个下载的流程就分为3步:

  1. 网络请求
  2. 解析网页
  3. 下载图片

举个栗子

用以下代码,就可以将指定网页的图片下载下来: 

# -*- coding:utf-8 -*-
import urllib
from lxml import etree
import requests

i = 0

def running(i):
    print '当前正在下载第' + i + "张图片,请耐心等待下载 .."

url = 'http://588ku.com/?h=bd&sem=1'
r = requests.get(url)  # 网络请求
content = r.text
if r.status_code == requests.codes.ok:
    # 使用lxml解析网页
    html = etree.HTML(content)
    # 找到所有的img
    img_urls = html.xpath('.//img/@src')
    # 下载图片
    for img_url in img_urls:
        urllib.urlretrieve(img_url, 'img' + str(i) + '.jpg', running(str(i)))
        i = i + 1
else:
    r.raise_for_status()

有两点需要说明 ——

  1. url是我随便找的,如有侵权,可以留言我换掉
  2. 对于img_urls = html.xpath('.//img/@src')这行代码,如果有不懂的小伙伴,可以移步到 - Web前端基础 XPath [ 笔记 ]这里看一下对xpath的解释
  3. 以上,that‘s all~
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值