python爬虫的urllib2库的使用

最新推荐文章于 2024-11-13 22:54:51 发布

原创最新推荐文章于 2024-11-13 22:54:51 发布 · 200 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

爬虫专栏收录该内容

27 篇文章

订阅专栏

本文详细介绍了Python2中urllib2模块的使用方法，包括最基本的URL请求与响应操作，以及如何构造请求头信息，例如设置User-Agent。通过示例代码展示了如何读取网页内容、获取响应状态码、真实URL及响应头信息。

环境： python2

备注：在python2中叫做urllib2，在python3中使用的是urllib.request，和前面urllib2的使用方法一样的

1----urllib2的最简单使用

# -*- coding=utf-8 -*-
# 直接这样使用的时候，urllib2不支持构造request

import urllib2

response = urllib2.urlopen("http://www.baidu.com")

html = response.read()
# 返回响应页面
print(html)
# 返回响应码
code = response.getcode()

print(code)
# 返回的是返回真实数据的url（如果返回数据的url被重定向的话，可从这里获取到真实的url信息）
url = response.geturl()

print(url)
# 返回的是响应的报头信息
info = response.info()

print(info)

2-urllib2的正确使用方式

# -*- coding=utf-8 -*-
# 这样使用可以构造其他请求头信息，如User-Agent
import urllib2

# 构造headers
headers = {
    "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"}

resquest = urllib2.Request("http://www.baidu.com/", headers=headers)

response = urllib2.urlopen(resquest)

html = response.read()
print(html)

code = response.getcode()
print(code)

url = response.geturl()
print(url)

info = response.info()
print(info)