使用Python下载文件的技巧与陷阱-优快云博客

本文介绍了使用Python的urllib模块下载文件的方法及注意事项。通过实例演示了如何使用urlretrieve函数，并揭示了在多进程下载时可能出现的假死现象。此外，还提供了另一种接收数据并保存的方法，并对比了两种方法的稳定性。

使用python下载文件可以使用urllib模块的urlretrieve函数，使用非常简单，第一个参数传入url,第二个参数传入filename，就是你希望本地保存的文件名字。这里要注意的一点是，如果你要下载的文件名称中有中文，那么记得要进行url编码，相关操作查阅urllib的urlencode函数。

给出一个简单实例

import urllib
def demo1():
    url = 'http://192.168.1.102:9166/download?'
    qurey = {'FileName':'转正考试.rar'}
    url = url + urllib.urlencode(qurey)
    urllib.urlretrieve(url, 'g:/转正考试.rar'.decode('utf-8'))

这种方法可以非常稳定的下载文件，但也不绝对。我自己在一台电脑上搭建了一个node.js编写的http服务器，提供文件下载。另外两台电脑上部署了8个文件下载程序，同时进行文件的下载，这时，会出现程序假死的现象，也就是文件下载时突然就永久性的卡在那里了，既不报错，也不再进行下载，被下载中的文件大小不发生变化。你可能会怀疑是node.js出了问题，或许有关，但不是全部因素。

除了使用urlretrieve函数外，我们也可以自己接收数据并保存，下面给出示例代码

def demo2():
    url = 'http://192.168.1.102:9166/download?'
    qurey = {'FileName':'转正考试.rar'}
    url = url + urllib.urlencode(qurey)
    headers = {}
    req = urllib2.Request(url, None,headers)
    f = urllib2.urlopen(req) 
    filename = 'g:/转正考试.rar'
    filename = unicode(filename,'utf-8')
    with open(filename, "wb") as code: 
        while True:  
            data = f.read(1024)  
            if not data:
                break

如果你感兴趣，可以阅读以下urlretreve的代码，你会发现，相比于我第二个示例要发杂的多。在前面的urlretreve示例中，我说过，8个进程同时下载时，会出现假死的情况，我之所以认为不全是node.js服务端导致的，是因为demo2更容易假死。也就是说urlretreve函数相比于我的demo2是更加稳定的，这里要指出的是，demo2非常容易假死，甚至直接就发生错误导致崩溃。具体的原因，目前我也没有研究清楚。