Python爬虫遇到的问题（一）---关于utf-8,gbk

最新推荐文章于 2021-07-12 15:17:47 发布

FCinPJ

最新推荐文章于 2021-07-12 15:17:47 发布

阅读量3.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： python爬虫文章标签： python 爬虫 lxml gbk

本文链接：https://blog.youkuaiyun.com/FCinPJP/article/details/82872015

本文讲述了在Python爬虫中遇到的编码问题，主要讨论了在处理浙江工商大学信息网时，utf-8与gbk编码导致的内容缺失、乱码及UnicodeDecodeError。通过尝试不同解析库和解码方式，最终确定gbk编码配合lxml库可以成功解决爬取过程中遇到的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python爬虫遇到的问题（一）—关于utf-8,gbk

遇到的问题

最初，在爬取浙江工商大学信息网时，使用了以下代码：

from bs4 import BeautifulSoup
import urllib.request

def get_html(url):
    page = urllib.request.urlopen(url) 
    htmlcode = page.read() 	#这里没有进行任何操作
    return htmlcode

url = 'http://www.zjgsu.edu.cn/news/' 
html = get_html(url) 
soup = BeautifulSoup(html,'lxml')  #使用lxml

print(soup)

发现BeautifulSoup解析html后内容缺失，而后做了如下更改:

from bs4 import BeautifulSoup
import urllib.request

def get_html(url):
    page = urllib.request.urlopen(url) 
    htmlcode = page.read() 	#这里没有进行任何更改
    return htmlcode

url = 'http://www.zjgsu.edu.cn/news/' 
html = get_html(url) 
soup = BeautifulSoup(html,'html.parser')  #使用html.parser

print(soup)

发现解析后的html内容出现中文乱码问题，紧接着又做出了一下修改：

from bs4 import BeautifulSoup
import urllib.request

def get_html

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

FCinPJ

关注关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

爬虫基础2.1｜Python学习笔记

PenguinAsHeathen

04-24

216

Beautiful Soup库的基本元素理解：Beautiful Soup库是解析、遍历、维护“标签树”的功能库，对应一个HTML、XML文档的全部内容 BS是一个HTML/XML的解析器，主要用于解析和提取HTML/XML数据；基于HTML DOM，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，性能低于lxml； BS用来解析HTML较简单，API非常人性化，支持CS...

Python 处理GBK编码转UTF-8读写乱码问题

xfyangle的博客

03-09

3万+

今日写了个爬虫，爬取前程无忧的招聘信息老套路，首先获取网页源代码 #-*- coding:utf-8 -*- import requests url = 'http://search.51job.com/jobsearch/search_result.php?' page_req = requests.get(url) page = page_req.text.encode('utf-8

2 条评论您还未登录，请先登录后发表或查看评论

python爬虫脚本ie=utf-8_Python爬虫脚本

weixin_39531834的博客

12-04

140

#!C:\Users\12550\AppData\Local\Programs\Python\Python37\python.exe# -*- coding: utf-8 -*-from urllib.request import urlopenfrom bs4 import BeautifulSoupimport pymysqlimport urllib.requestimport refrom...

python 文件解压缩到指定路径中文名乱码的问题

QQ1752506968的博客

02-22

941

import zipfile import os from pathlib import Path def ZipFiles(req): fileser=req.FILES['file'] z=zipfile.ZipFile(fileser, 'r') # logger = logging.getLogger("upmsg") user = UserAccount...

python中utf-8是什么意思_python utf8什么意思

weixin_30767365的博客

02-03

2127

几谢谢你的耐心解答，虽然没有说什么，。哈哈这就是不兼容的代价回复@yak:刚刚看了DarkAngel朋友的回复，看了官网的介绍。自己没有英文的功底，借助百度翻译慢慢的拼接理解大概意思。现在看到了你的回复，方便很多，等下在继续对比一下官网的。理解再深刻一些。早点休息哦。晚安。谢谢呢回复@BJ-CHEN:http://www.zhihu.com/question/19698598你好，请问下能解释一下...

python 之Bs4

qq_32551117的博客

06-07

3320

python中Bs4这个包是用来解析网页源码的包，爬虫程序常用这个包解析爬取网页源码进行分析，今天主要介绍这个包的一些基本使用首先安装bs4: Pipinstall bs4创建beautifulsoup对象解析网页源码，首先创建beautifulsoup对象import requestsfrom bs4 importBeautifulSouphtml=requests.get('http://ww...

Python爬虫编码问题终极解决方案：UTF-8、GBK转换秘籍.pdf

04-20

该文档为你开启一段精彩的 Python 学习之旅。从基础语法的细致讲解，到实用项目的实战演练，逐步提升你的编程能力。无论是数据科学领域的数据分析与可视化，还是 Web 开发中的网站搭建，Python 都能游刃有余。无论你...

python爬虫入门实战---------一周天气预报爬取_Python爬虫实例扒取2345天气预报

weixin_39609887的博客

11-26

697

寒假里学习了一下Python爬虫，使用最简单的方法扒取需要的天气数据，对，没听错，最简单的方法。甚至没有一个函数封装。。网址：http://tianqi.2345.com/wea_history/53892.htm火狐中右键查看网页源代码，没有发现天气数据，因此推断网页采用的json格式数据。右击->查看元素->网络->JS，找到了位置用Python爬虫下载为json格式数据存储下来，代码如下：#...

python爬虫python-strings.rar

06-22

Python提供`encode()`和`decode()`方法进行编码转换，例如`str.encode('utf-8')`和`bytes.decode('gbk')`。六、字符串与JSON 在爬虫中，通常会遇到JSON格式的数据，Python的`json`模块提供了方便的接口进行字符串...

python(BS4模块)

热门推荐

qq_43194257的博客

02-20

6万+

BS4简介 1.什么时BS4？ BS4全称是Beatiful Soup，它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为tiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编一下原始编码方式就可以了。 2.BS4的4中对象 Tag对象：是html中的一个标签，...

python编程怎么结束编码_Python编程(四)：编码和解码

weixin_39798579的博客

11-20

320

1、在py2中默认编码是ASCII, py3里默认是utf-82、Unicode 分为 utf-32(占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)， utf-8是Unicode的一个子集，在保存纯英文符号时，仍然使用ASCII码3、在py3中encode,在转码的同时还会把string 变成bytes类型，decode在解码的同时还会把bytes变回string4、GBK...

UTF8和GBK之间相互转换（python脚本）

fengjinghuanian的博客

10-30

9101

import codecs def ReadFile(filePath,encoding=""): with codecs.open(filePath,"r",encoding) as f: return f.read() def WriteFile(filePath,u,encoding=""): with codecs.open(filePath,"w",e...

（6）Python爬虫——爬取中新网新闻

好女绪的博客

03-18

7446

工欲善其事，必先利其器。我们要进行数据挖掘，就必须先获取数据，获取数据的方法有很多种，其中一种就是爬虫。下面我们利用Python2.7，写一个爬虫，专门爬取中新网http://www.chinanews.com/scroll-news/news1.html滚动新闻列表内的新闻，并将新闻正文保存在以新闻类别命名的文件夹下的以该新闻的发布日期和顺序命名的文本中。具体代码如下：#!/usr/bin/pyt

[Python爬虫] 中文编码问题：raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题...

weixin_34092370的博客

10-01

659

最近研究搜索引擎、知识图谱和Python爬虫比较多，中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数，同时以前我也讲述过PHP处理数据库服务器中文乱码问题，但是此处还是准备简单做下笔记。方便以后查阅和大家学习。中文编码问题的处理核心都是——保证所有的编码方式一致即可，包括编译器、数据库、浏览器编码方...

python打开一批文件，编码格式既有utf-8又有gbk怎么办

linxinfa的专栏

07-09

5409

with open(file, 'r', encoding='utf-8') as f: try: text = f.read() except: with open(file, 'r', encoding='gbk') as f: text = f.read() print(text)

使用python做微博爬虫遇到的问题（1）

猕猴桃的博客

03-05

2889

使用的是python 2.7 python装不了requests：百度上的大致意思是我的电脑的用户名是中文，python不支持中文解决办法是在python文件路径下（我的是C:\Python27）的Lib\site-packages内新建一个名为“sitecustomize.py”的文件，文件里写入： import sys sys.setdefaultencoding...

爬虫小问题（3）：爬取的页面出现乱码，Unicode和utf-8、gbk之间的关系

F3519797075的博客

07-12

2039

爬虫小问题（3）：爬取的页面出现乱码问题在爬虫中出现中文内容的时候，爬取下来的html页面会出现乱码。原因：爬取下来的页面是一般默认编码为ASCII。而windows控制台默认gbk，抓取utf-8编码的网站或者Mac终端（utf-8）抓取了gbk编码的网站，都容易出现。如果页面中英文、数字、符号都没有问题，仅仅是没有中文内容，而是夹杂着一堆乱码，那就是这种情况。解决方法： 1.去原网站查找网站编码，然后将爬取的页面编码设置为该编码。在该网站开发者页面中，Ctrl+F搜索charset属性

Python解决抓取内容乱码问题（decode和encode解码）

浅然的专栏

10-27

3万+

一、乱码问题描述经常在爬虫或者一些操作的时候，经常会出现中文乱码等问题，如下原因是源网页编码和爬取下来后的编码格式不一致二、利用encode与decode解决乱码问题字符串在Python内部的表示是unicode编码，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。 dec

Python设置调成gbk调回utf-8了一直报错怎么办

最新发布

07-24

<think>首先，用户的问题是：“Python 编码设置从 gbk 改为 utf-8 后持续报错如何解决”。根据系统指令，我需要使用中文回答，结构清晰，逐步解决问题，并确保回答真实可靠。用户描述了在Python中读取文件时，当编码从gbk改为utf-8后仍然报错。参考引用中提供了相关信息： - 引用[1]：提到在读取文件时遇到UnicodeDecodeError，无论是gbk还是utf-8都报错。原因分析是文件可能不是纯文本或包含特殊字符。 - 引用[2]：解释了Python字符编码问题，包括utf-8、unicode、gbk等，强调理解编码原理的重要性。 - 引用[3]：使用Pandas读取csv文件时，gbk和utf-8都报错，最终通过统一编码方式解决。 - 引用[4]：在爬虫中decode utf-8报错，解决办法是检查实际编码。关键点是：用户尝试从gbk改为utf-8后持续报错，说明文件的实际编码可能不是这两种之一，或者文件有损坏。现在，我需要构建回答结构： 1. **理解问题**：解释为什么更改编码后仍然报错。 2. **诊断原因**：列出可能的原因，如文件实际编码不同、文件损坏、特殊字符等。 3. **解决方法**：提供逐步的解决方案，包括检测编码、处理异常、使用工具等。 4. **预防措施**：建议如何避免类似问题。 5. **生成相关问题**：根据系统指令，在回答末尾添加相关问题。回答中引用的段落末尾自然地添加引用标识，如[^1]。参考引用来自用户提供的上下文，所以我应该引用它们。可能的解决方案： - 使用`chardet`库检测文件实际编码。 - 尝试其他常见编码，如latin1或utf-16。 - 在读取文件时使用错误处理，如`errors='ignore'`或`errors='replace'`。 - 确保文件是文本文件，没有二进制数据。 - 对于Pandas，使用`encoding`参数指定编码。从引用[3]，它提到通过统一编码方式解决，意思是可能转换文件编码。逐步回答： 1. **确认文件编码**：使用工具如`chardet`来检测文件的实际编码。 2. **尝试不同编码**：列出常见编码尝试。 3. **错误处理**：在open函数中使用`errors`参数。 4. **转换文件编码**：如果可能，将文件转换为标准编码如utf-8。 5. **检查文件内容**：确保文件不是损坏的。最后，生成相关问题，如系统指令所示。相关问题应该基于当前主题，例如： 1. 如何检测Python文件的编码？ 2. Python中处理编码错误的最佳实践是什么？ 3. 如何在Python中安全地读取不同编码的文件？确保回答使用正确的LaTeX格式：行内数学用$...$，独立公式用$$...$$，但在这个问题中可能不需要数学公式，除非涉及编码计算，但不太可能。所以，主要关注文本。回答结构： - 开头：重述问题以确认。 - 主体：分步骤解释和解决。 - 结尾：总结和生成相关问题。引用标识：当引用用户提供的引用时，添加[^1]、[^2]等。</think>### Python 编码设置从 GBK 改为 UTF-8 后持续报错的解决方法在 Python 中读取文件时，如果将编码从 GBK 改为 UTF-8 后仍然报错（如 `UnicodeDecodeError`），这通常是因为文件的实际编码与您指定的编码不匹配，或者文件包含特殊字符、损坏数据。这种问题在读取文本文件、CSV 文件或网络爬虫数据时常见。下面我将逐步解释原因，并提供详细的解决方案，帮助您彻底解决此问题。回答基于 Python 的字符编码原理和常见实践，确保可靠性和可操作性。 --- ### 一、问题原因分析当您将编码从 GBK 改为 UTF-8 后持续报错，根本原因往往是： 1. **文件实际编码不是 GBK 或 UTF-8**：文件可能使用其他编码（如 Latin-1、UTF-16 或 ANSI），导致指定 GBK 或 UTF-8 时无法正确解码[^1][^2]。 2. **文件包含无效字节或特殊字符**：例如，二进制数据、损坏的字节序列（如 `0xff` 或 `0xa1`），这些在标准文本编码中无法解析[^1][^4]。 3. **编码不一致**：文件部分内容使用一种编码，另一部分使用另一种编码，造成解码失败[^2][^3]。 4. **环境或工具限制**：Python 的 `open()` 函数或库（如 Pandas）默认处理编码时，如果未正确处理错误，会抛出异常[^3][^4]。引用中提到的案例显示，用户尝试 GBK 和 UTF-8 都失败，最终通过检测实际编码并统一处理解决了问题[^1][^3]。接下来，我将提供逐步解决方法。 --- ### 二、逐步解决方法遵循这些步骤，您能诊断并修复编码问题。建议在 Python 脚本中逐一尝试。 #### 步骤 1: 检测文件的实际编码首先，使用工具检测文件的实际编码，避免猜测。推荐使用 Python 的 `chardet` 库（一个流行的编码检测库）。 - 安装 `chardet`（如果未安装）： ```bash pip install chardet ``` - 在 Python 脚本中检测编码： ```python import chardet def detect_encoding(file_path): with open(file_path, 'rb') as f: # 以二进制模式打开，避免解码错误 raw_data = f.read() result = chardet.detect(raw_data) return result['encoding'] file_path = 'your_file.txt' # 替换为您的文件路径 encoding = detect_encoding(file_path) print(f"检测到的文件编码: {encoding}") ``` - **说明**：`chardet` 通过分析字节序列预测编码，准确率较高。如果输出类似 `ISO-8859-1`（Latin-1）或 `GB2312`，则使用该编码读取文件[^2][^3]。 #### 步骤 2: 尝试常见编码并添加错误处理如果 `chardet` 无法确定编码，手动尝试常见编码，并在 `open()` 函数中使用 `errors` 参数处理无效字节。 - 示例代码： ```python file_path = 'your_file.txt' encodings_to_try = ['utf-8', 'gbk', 'latin1', 'cp1252', 'utf-16'] # 常见编码列表 for encoding in encodings_to_try: try: with open(file_path, 'r', encoding=encoding, errors='strict') as f: content = f.read() print(f"成功读取！编码: {encoding}") break # 成功则退出循环 except UnicodeDecodeError: print(f"编码 {encoding} 失败，尝试下一个...") # 如果所有编码都失败，使用错误处理模式 if 'content' not in locals(): with open(file_path, 'r', encoding='utf-8', errors='replace') as f: content = f.read() # 替换无效字符为