使用python下载文件可以使用urllib模块的urlretrieve函数,使用非常简单,第一个参数传入url,第二个参数传入filename,就是你希望本地保存的文件名字。这里要注意的一点是,如果你要下载的文件名称中有中文,那么记得要进行url编码,相关操作查阅urllib的urlencode函数。
给出一个简单实例
import urllib
def demo1():
url = 'http://192.168.1.102:9166/download?'
qurey = {'FileName':'转正考试.rar'}
url = url + urllib.urlencode(qurey)
urllib.urlretrieve(url, 'g:/转正考试.rar'.decode('utf-8'))
这种方法可以非常稳定的下载文件,但也不绝对。我自己在一台电脑上搭建了一个node.js编写的http服务器,提供文件下载。另外两台电脑上部署了8个文件下载程序,同时进行文件的下载,这时,会出现程序假死的现象,也就是文件下载时突然就永久性的卡在那里了,既不报错,也不再进行下载,被下载中的文件大小不发生变化。你可能会怀疑是node.js出了问题,或许有关,但不是全部因素。
除了使用urlretrieve函数外,我们也可以自己接收数据并保存,下面给出示例代码
def demo2():
url = 'http://192.168.1.102:9166/download?'
qurey = {'FileName':'转正考试.rar'}
url = url + urllib.urlencode(qurey)
headers = {}
req = urllib2.Request(url, None,headers)
f = urllib2.urlopen(req)
filename = 'g:/转正考试.rar'
filename = unicode(filename,'utf-8')
with open(filename, "wb") as code:
while True:
data = f.read(1024)
if not data:
break如果你感兴趣,可以阅读以下urlretreve的代码,你会发现,相比于我第二个示例要发杂的多。在前面的urlretreve示例中,我说过,8个进程同时下载时,会出现假死的情况,我之所以认为不全是node.js服务端导致的,是因为demo2更容易假死。也就是说urlretreve函数相比于我的demo2是更加稳定的,这里要指出的是,demo2非常容易假死,甚至直接就发生错误导致崩溃。具体的原因,目前我也没有研究清楚。

本文介绍了使用Python的urllib模块下载文件的方法及注意事项。通过实例演示了如何使用urlretrieve函数,并揭示了在多进程下载时可能出现的假死现象。此外,还提供了另一种接收数据并保存的方法,并对比了两种方法的稳定性。
956

被折叠的 条评论
为什么被折叠?



