python抓取时gzip解压

最新推荐文章于 2024-11-04 17:46:34 发布

转载最新推荐文章于 2024-11-04 17:46:34 发布 · 4k 阅读

python 专栏收录该内容

18 篇文章

订阅专栏

本文介绍了一种从指定URL获取网页内容的方法，并针对某些需要gzip解压缩的页面进行了处理。通过Python的urllib及gzip库实现了网页内容的读取与解码。

'''
根据URL返回内容，有些页面可能需要gzip解压缩
'''
def getUrlContent(url):
    #返回页面内容
    doc = urllib.request.urlopen(url).read()
    #解码
    try:
        html=gzip.decompress(doc).decode("utf-8")
    except:
        html=doc.decode("utf-8")
    return html

转自：http://www.cnblogs.com/GarfieldTom/archive/2012/12/04/2802000.html