python urllib2爬取网页，编码问题

最新推荐文章于 2021-11-26 20:55:42 发布

原创最新推荐文章于 2021-11-26 20:55:42 发布 · 3.2k 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍如何使用Python的urllib2库抓取网页内容，并通过检测网页编码类型及编码转换来解决乱码问题。文章详细展示了如何针对非UTF-8编码的网页进行正确的转码操作。

使用urllib2爬取网页时，由于网页编码和系统的编码不统一，会导致乱码问题。

一般linux系统都使用utf-8编码，将爬取的网页内容转换成utf-8编码，统一编码类型。

1）检测网页编码类型

2）编码转换

import urllib2
import chardet
if __name__=="__main__":
    url = "http://news.163.com/16/1030/20/C4LDRHVC000189FH.html"
    req = urllib2.Request(url)
    res = urllib2.urlopen(req)
    html = res.read()
    # 获取网页编码
   char_type = chardet.detect(html)
    print char_type
    # 非utf-8码
    if chardet["encoding"].lower() != 'utf-8':
        html = unicode(html, "gbk").encode("utf8")
    print html

编码类型gb2312的网页进行encode('utf-8')转码时，会出现错误。用gbk就会避免错误。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

learn_tech

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python实战：爬取网页图片

howard2005的专栏

09-26

1017

在本次实战中，我们成功实现了一个Python脚本，用于从彼岸图网的指定页面爬取4K风景图片。通过分析网页结构，我们利用`requests`库获取网页内容，并使用`lxml`库的XPath功能提取图片URL。脚本下载图片并保存到本地目录，整个过程自动化，无需人工干预。此次实践不仅加深了对Python网络请求和解析库的理解，也锻炼了实际问题解决能力。

【转】python的urllib 模块的简单介绍

heartiner的专栏

06-01

725

一。该模块的用途： 1。从制定的URL获取数据 2。对URL字符串进行格式化处理 二。__version__='1.17'的urllib模块中的主要函数和类介绍： 1。函数： (1)def urlopen(url, data=None, proxies=None) 参数说明： url 符合URL规范的字符串（包括http,ftp,gopher,local-file标准)<br

1 条评论您还未登录，请先登录后发表或查看评论

Python urllib2.urlopen打开中文url的编码处理_Luffy's Space_百度空间

03-18

197

Python urllib2.urlopen打开中文url的编码处理_Luffy's Space_百度空间 Python urllib2.urlopen打开中文url的编码处理_Luffy's Space_百度空间Python urllib2.urlopen打开中文...

SAE Python urllib2因请求头字典键名为Unicode类型引发的异常问题

weixin_33982670的博客

01-21

109

SAE Python urllib2引发异常问题的关键点：HTTP(S)请求包含headers，且headers的键名为unicode 下面是引发异常的代码： pythonimport urllib2 headers = {u'Authorization': u'Bearer 83F40E96FB6882686F4DF1E17105D...

使用urllib将中文转换url地址编码

Little Snow White

03-25

1224

urllib中的转码问题

zhouxuan623的专栏

07-22

929

urllib.urlencode 和 urllib.unquote import urllib >>> p={'name':'jim'} >>> urllib.urlencode(p) 'name=jim' >>> p={'name':'jim@163.com'} >>> urllib.urlencode(p) 'name=jim%40163.com' >>> urllib.unquote(

python urllib爬取网页编码问题

hfut_jf的专栏

04-28

1万+

利用python urllib库爬取网页，有时获得的网页打印或写文件遇到编码问题，找了许久终于知道为什么了。首先利用urlopen()函数获取网页对象，再利用info()函数打印网页的相关信息，确定网页的编码及是否压缩。 import urllib.request fp = urllib.request.urlopen('http://www.sina.com') mybytes =

python爬虫——使用urllib爬取网页

w_sunset的博客

11-26

6630

1.urlib库是python内置的http请求库，它可以看作处理url的组件集合。urllib库包含4大模块：（1）urllib.request:请求模块（2）urllib.error: 异常处理模块（3）urllib.parse:URL解析模块（4）urllib.robotparser:robots.txt解析模块下面是用urllib库爬取百度首页 import urllib.request # 导入urllib的请求模块request url = "http://www

python urllib爬取百度云连接的实例代码

09-21

### Python urllib 爬取百度云链接实例解析在当今数据驱动的世界中，网络爬虫技术变得越来越重要，它能够帮助我们从互联网上自动收集大量数据。本篇内容将详细介绍如何利用Python中的`urllib`库来爬取百度云链接的...

Python3爬虫之urllib携带cookie爬取网页的方法

09-19

本篇文章将详细介绍如何使用Python3的`urllib`库携带Cookie来爬取网页。首先，我们要导入`urllib.request`和`urllib.parse`这两个模块。`urllib.request`是用于发起HTTP请求的，而`urllib.parse`则用来处理URL和...

【转】Python urllib2.urlopen打开中文url的编码处理

searchwang的专栏

06-05

3500

http://hi.baidu.com/andimeo/item/4eec9ad4dc25622a38f6f736 考文章：http://lijiang.javaeye.com/blog/312247 在用urllib2.urlopen(url)时，如果url里面包含中文，则必须对此url进行编码处理，否则会引起UnicodeError。搜索后找到了相关的处理方法引用参

使用python进行URL编码

曾记否？的博客

09-10

2万+

为什么要对URL进行encode 在写网络爬虫时，发现提交表单中的中文字符都变成了TextBox1=%B8%C5%C2%CA%C2%DB这种样子，观察这是中文对应的GB2312编码，实际上是进行了GB2312编码和urlencode。那么为什么要对URL进行encode？因为在标准的url规范中中文和很多的字符是不允许出现在url中的。为了字符编码（gbk、utf8）和特殊字符不出现在u...

python2和python3 URL 中文 GBK UTF-8 编码

guohewei123的博客

02-13

941

Python3 URL 中文 GBK UTF-8 编码 from urllib.request import quote, unquote url = "https://www.baidu.com/s?wd=code123中国" gbk_url = quote(url, safe=";/?:@&=+$,", encoding="gbk") utf_url = quote(url, safe...

python2 对URL编码进行编译

qq_40659982的博客

07-06

1775

python2 对URL编码进行编译在请求页面时有时会返回类似：%E8%AF%A5985%E5%A4%A7%E5%AD%A6%E5%B8%B8%E5%B9%B4%E4%BD%8D%E5%B1%85%E5%9B%BD%E5%86%85%E5%89%8D%E4%BA%的编码方式，为URL编码，查阅资料后都没有成功转码，原因是from urllib ...

python url编码-----urllib的urlencode和quote和quote_plus

mr~li的博客

11-22

1万+

背景：需要使用有特别要求的第三方接口。 python部分： 1.urllib.urlencode(query, doseq=0) 接受参数形式为：[(key1, value1), (key2, value2),...] 和 {'key1': 'value1', 'key2': 'value2',...} 返回的是形如'key2=value2&key1=value1'字符串。 ...

python2 中文字符编码转换

知易行难，知行合一

08-26

1828

各种编码意义：参考链接https://blog.csdn.net/qq_33733970/article/details/81084465 GB2312是中国规定的汉字编码，也可以说是简体中文的字符集编码 GBK 是 GB2312的扩展 ,除了兼容GB2312外，它还能显示繁体中文 cp936（中文编码）中文本地系统是Windows中的cmd，默认codepage是CP936，cp936就是指...

Python2和Python3中urllib库中urlencode的使用注意事项

最新发布

10-22

<think>首先，用户的新问题是：“我想获取使用urllib3爬取网页的方法请问urllib3爬取网页的使用方法”。用户指定了urllib3，而不是urllib或urllib2。回顾系统级指令： - 所有行内数学表达式必须使用$...$格式。 - 独立公式必须使用$$...$$$$格式。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 回答中引用的段落末尾自然地添加引用标识。用户可见层指令： - 回答结构清晰，帮助用户逐步解决问题。 - 保证回答真实可靠。参考站内引用： - [^1]: 关于使用Urllib爬取网页（Python2.x）。 - [^2]: 使用urllib库爬取网页获取数据，包括定义函数load_page和headers设置。 - [^3]: 关于携带cookie爬取网页，包括User-Agent设置。用户的问题是关于urllib3的，但引用中主要是关于urllib（Python标准库）。urllib3是第三方库，不是标准库的一部分。我需要确保回答真实可靠。关键点是用户问的是urllib3，所以我需要基于真实知识来回答。urllib3是一个流行的HTTP客户端库用于Python，不同于urllib。步骤： 1. **理解问题**：用户想知道如何使用urllib3来爬取网页。 2. **参考引用**：引用中提到了urllib（特别是Python2.x），但用户指定了urllib3。所以，我应该基于一般知识添加urllib3的使用方法。引用[2]和[3]提到了设置headers、User-Agent、编码等，这些概念可以迁移到urllib3。 3. **结构化回答**：回答应该清晰、逐步。 - 介绍urllib3。 - 安装步骤（如果需要）。 - 基本用法：创建请求、设置headers、处理响应。 - 示例代码。 - 注意事项。 4. **生成相关问题**：在回答后生成相关问题。 5. **引用标识**：如果在回答中使用了引用中的内容，自然地添加引用标识。例如，如果提到设置User-Agent，可以引用[3]。由于引用是关于urllib的，不是urllib3，我应该谨慎使用引用。系统指令说“生成相关问题，回答中引用的段落末尾自然地添加引用标识”，所以我需要在合适的上下文添加。真实可靠的回答：urllib3的使用： - 安装：pip install urllib3 - 基本步骤： - 导入库。 - 创建PoolManager实例。 - 发出请求：使用request方法（GET/POST）。 - 处理响应：获取数据、状态码等。 - 示例：爬取一个网页。参考引用中的概念： - 设置headers避免被拒绝：类似于[2]和[3]。 - 处理编码：类似于[2]。但在urllib3中，细节不同。回答结构： 1. 介绍urllib3。 2. 安装urllib3（如果需要）。 3. 基本爬取方法： - 创建请求管理器。 - 发送请求。 - 处理响应。 4. 示例代码：使用Python3（因为urllib3常用在Python3）。 5. 注意事项：如设置User-Agent、处理编码。 6. 自然地添加引用标识：如果提到类似概念，引用相关部分。最后，生成相关问题。使用中文回答。确保没有数学表达式，所以不需要LaTeX格式。代码块：使用代码块显示示例代码。示例代码类似引用中，但适应urllib3。 urllib3示例： ```python import urllib3 http = urllib3.PoolManager() # 设置headers headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36" } response = http.request('GET', 'http://www.baidu.com', headers=headers) html_content = response.data.decode('utf-8') # 假设页面是UTF-8编码 print(html_content) ``` 在引用中，decode('gbk')用于新浪财经，所以我应该提到编码取决于目标网站。生成相关问题： - 如何设置cookies？ - 处理HTTPS？ - 异步请求？ - 错误处理？完整回答大纲： - 开头：解释urllib3是什么。 - 步骤1：安装。 - 步骤2：导入库。 - 步骤3：创建PoolManager。 - 步骤4：设置headers（引用[3]）。 - 步骤5：发送请求。 - 步骤6：处理响应和编码（引用[2]）。 - 示例代码。 - 注意事项。 - 结尾：相关问题。添加引用标识：例如，在提到设置User-Agent时，加[^3]，在处理编码时加[^2]。引用[1]是关于Python2.x的urllib，可能不直接相关，但可以提到差异。 </think>### 使用urllib3爬取网页的方法 urllib3是一个强大的Python第三方HTTP客户端库，常用于网络请求和网页爬取。它支持连接池、线程安全、SSL/TLS验证等功能，比Python标准库中的urllib更高效和灵活。下面我将一步步解释使用方法，包括安装、基本流程和示例代码，确保回答真实可靠（基于常见Python开发实践）。 #### 1. **安装urllib3** 在开始之前，需要安装urllib3库。使用pip命令即可安装： ```bash pip install urllib3 ``` 注意：urllib3适用于Python 3.x版本，请确保您的Python环境是3.6或更高。 #### 2. **基本爬取步骤** 使用urllib3爬取网页的核心流程包括： - **导入库**：引入urllib3模块。 - **创建请求管理器**：使用`PoolManager`管理HTTP连接池，提高效率。 - **设置请求头**：模拟浏览器行为，避免被目标网站拒绝（如设置User-Agent）。 - **发送请求**：使用HTTP方法（如GET）获取网页内容。 - **处理响应**：读取数据、处理编码和错误。这里的关键是自定义headers，类似于引用中提到的避免服务器拒绝的策略[^2][^3]。例如，设置User-Agent可以使请求看起来像浏览器访问，而不是爬虫脚本。 #### 3. **示例代码** 下面是一个完整的Python示例，展示如何使用urllib3爬取百度首页（http://www.baidu.com）。代码包括设置headers和编码处理： ```python import urllib3 # 创建连接池管理器 http = urllib3.PoolManager() # 设置headers，模拟浏览器请求（引用User-Agent示例[^3]） headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36" } # 发送GET请求 url = "http://www.baidu.com" response = http.request('GET', url, headers=headers) # 检查响应状态（状态码200表示成功） if response.status == 200: # 处理编码：百度页面通常使用UTF-8，但您可以根据实际情况调整 # 解码响应内容（类似引用中的gbk处理逻辑[^2]） html_content = response.data.decode('utf-8') # 如果页面是GBK编码，改为decode('gbk') print("网页内容获取成功！部分内容预览：") print(html_content[:500]) # 打印前500个字符 else: print(f"请求失败，状态码：{response.status}") ``` **代码解释**： - `PoolManager()`：管理HTTP连接，支持复用连接，减少开销。 - `request()`：发送HTTP请求，参数包括方法（GET/POST）、URL和headers。 - `response.data`：获取二进制响应数据。 - `decode()`：解码网页内容，编码需根据目标网站调整（如百度用UTF-8，新浪财经可能用GBK）。 - **注意事项**：实际爬取时，检查网站的`Content-Type`头信息来确定编码；否则可能乱码。 #### 4. **进阶技巧和注意事项** - **处理错误**：使用`try-except`捕获异常，防止网络问题导致脚本中断。 ```python try: response = http.request('GET', url, headers=headers) except urllib3.exceptions.HTTPError as e: print(f"HTTP错误：{e}") ``` - **设置超时**：添加timeout参数避免无限等待。 ```python response = http.request('GET', url, headers=headers, timeout=5.0) # 超时5秒 ``` - **支持HTTPS**：urllib3默认验证SSL证书；如需禁用（不推荐），设置`cert_reqs='CERT_NONE'`。 - **Cookie管理**：如果需要登录爬取（如带密码的网站），需添加Cookie到headers，类似引用中携带cookie的方法[^3]。 - **性能优化**：利用连接池减少延迟；对于大规模爬取，结合多线程或异步库（如Asyncio）。 #### 5. **为什么推荐urllib3？** urllib3比Python内置的urllib更稳定和高效：它自动处理连接池、重试机制和编码问题。但与引用中的urllib（Python2.x）不同，urllib3是独立库，适用于现代Python项目[^1]。如果您是从urllib迁移，注意语法差异（如response.data vs response.read()）。