python 数据中文乱码问题

最新推荐文章于 2025-11-03 00:30:00 发布

转载最新推荐文章于 2025-11-03 00:30:00 发布 · 1.4k 阅读

3 ·

CC 4.0 BY-SA版权

原文链接：https://www.jianshu.com/p/c06f07d7bbd3

文章标签：

#乱码 #xpath #python

爬虫总结专栏收录该内容

4 篇文章

订阅专栏

本文介绍了解决爬虫在抓取中文网页时遇到的乱码问题的方法，通过设置requests的编码方式为utf-8来正确解析中文字符，并提供了unicode转换为中文的示例。

在爬虫时，经常遇到中文乱码，其实在requests获取response时进行转码即可

def crawler():
    baseurl="http://www.weather.com.cn/weather/101010100.shtml"
    r=requests.get(url=baseurl)
    r.encoding="utf-8" 
    # 感觉直接r.text传入就可以处理乱码问题，上面那句可以不填入
    res=r.text
    html=etree.HTML(res)
    #
    data=html.xpath("//li[@class='sky skyid lv4 on'][1]//p[@class='tem']//text()")
    print(data)
crawler()
=================================
['\n', '15', '/', '3℃', '\n']

此时爬取到的数据就是中文的了。

unicode转中文

str = ‘\u5927\u77f3\u8857\u9053\u690d\u6751\u4e09\u8def\u56db\u5df79\u53f7’

使用：str.encode(‘utf-8’).decode(‘unicode_escape’)

str.encode('utf-8').decode('unicode_escape')

抓取的HTML中含有 ↵ 符号处理

先使用 json.dumps() 编码，将↵变成\n,然后把\n替换成空白字符
再使用 json.loads() 解码就可以了

import json
a = "HTML ↵"
print(json.loads(json.dumps(a).replace("\n"," ")).strip())

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

陌铭丶

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【求解】pyspark中文编码问题怎么解决？

Toby的博客

04-19

5382

最近使用python-spark遇到一个无法解决的中文编码问题。查了网上的资料和解决方法，都无法使之解决。不知道哪位大佬可以帮忙指点一二？问题摘要，python使用UTF8编码，spark使用的是ascii编码，处理中文文件时遇到乱码问题。情形1、读取本地文件创建DataFrame时的中文编码问题 #in python import codecs local_file = "a_local_file.csv" cate_list = [] for line in open(loc

python 中文乱码问题深入分析

最新发布

mftang的博客

11-03

917

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。以下是 JSON 文件的完整定义方法和规范。本文还介绍了使用Python处理JSON文件的完整流程，包括读取、解析、修改和保存JSON数据的方法。

python的中文数组输出乱码问题

HeruiPrograming的博客

10-30

5734

1-先来几组测试测试1：在控制台上list1 = ['哈哈', 'haha'] print list1 for item in list1: print item print ','.join(list1)测试结果： [‘\xb9\xfe\xb9\xfe’, ‘haha’] 哈哈 haha 哈哈, haha 这里同时给出了在控制台的解决方式：一个一个输出就好测试2：把它展现在网

python matplotlib可视化图表中中文乱码

h1394524798的博客

10-18

1998

python中使用matplotlib显示中文时,会遇到一些问题, 解决方案如下: import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号在代码中加入即可解决 ...

彻底搞懂 python 中文乱码问题_彻底搞懂 python 中文乱码问题(深入分析)

weixin_31480911的博客

02-12

476

前言曾几何时 Python 中文乱码的问题困扰了我很多很多年，每次出现中文乱码都要去网上搜索答案，虽然解决了当时遇到的问题但下次出现乱码的时候又会懵逼，究其原因还是知其然不知其所以然。现在有的小伙伴为了躲避中文乱码的问题甚至代码中不使用中文，注释和提示都用英文，我曾经也这样干过，但这并不是解决问题，而是逃避问题，今天我们一起彻底解决 Python 中文乱码的问题。基础知识ASCII很久很久以前，有...

python查询mysql中文乱码问题

09-10

Python查询MySQL时遇到的中文乱码问题是一个常见的编程困扰，特别是在使用Python 2.7版本时更为突出。本文将深入探讨这个问题的成因，并提供一套详细的解决方案。首先，我们需要了解问题的根本原因。当Python与...

Python request中文乱码问题解决方案

12-16

本篇文章将深入探讨这个问题，以及如何解决Python `requests`库在获取中文网页时的乱码问题。首先，我们需要理解`requests.get()`函数返回的两种类型数据：`r.text`和`r.content`。`r.text`返回的是Unicode类型的...

python 采集中文乱码问题的完美解决方法

09-21

在Python编程中，处理中文字符时经常遇到的一个挑战就是中文乱码问题。这通常发生在数据采集、读写文件或网络通信等涉及字符编码转换的场景。本文将详细介绍如何解决Python在采集过程中遇到的中文乱码问题。首先，...

解决c++调用python中文乱码问题

09-16

总结来说，要解决C++调用Python时的中文乱码问题，关键在于理解两种语言之间的编码差异，并确保在数据传递过程中进行适当的编码转换。在本例中，我们通过编写GBK到UTF-8的转换函数，成功地使C++能够正确地向Python...

Python-matplotlib绘图及中文乱码问题

python03011的博客

12-12

2504

matplotlib是基于python生态开发的一个可视化绘图库，它的出现让python在数据分析及机器学习方面占了重要的一部分，目前很多数据分析及机器学习相关方面的工程都有使用到这个库，并且由于其简单易用，安装简单等方面的优势深得广大开发者的喜爱。

Python使用content.encode(“utf-8“).decode(“unicode-escape“)导致中文乱码的解决方法

wang785994599的博客

07-29

1万+

当想要把一个字符串中的\u002F这样的字符串转成正常字符串时，如果字符串中存在中文字符，将导致中文被转成乱码。例如： content = "\\u002F哈哈" content = content.encode("utf-8").decode("utf-8") ==> \u002F哈哈无法进行转码如果使用.decode(“unicode-escape”) content = "...

数据可视化处理中文乱码问题matplotlib库

m0_51670773的博客

05-09

453

Python数据可视化处理中文乱码问题

彻底解决Python中文乱码问题

weixin_65644655的博客

10-20

2369

原因：Python默认是以ASCII作为编码方式，如果我们写的源码中包含了中文（或者其他非英语语言），python的翻译官——解释器就不认识这些非英语的小兄弟们，即使文件是以UFT-8格式保存的，解释器在做翻译时可能依旧不认识它们（别问我咋知道的，我不会告诉你们我是薅了好多根头发才找到乱码的原因……2.设置页面-【编辑器】-【文件和代码模板】-【Python Script】。4.进行验证——新建一个文件，设置好的文件头信息会自动生成。4.进行验证——新建一个文件，设置好的文件头信息会自动生成。

python3的requests抓取中文页面出现乱码

qq_28616685的博客

05-12

3190

最近在用python2到python3的过渡的问题，然后使用过程中能免遇到不适应，就在使用requests抓取页面时就出现问题了，问题如下，就是抓取的页面使用xpath如何的去解析都遇到一堆的乱码的问题，然后这个问题也困扰了自己差不多有些时间： **查找到是如下原因：原理：**requests 是一个python的http请求类库，基于urllib3，但支持更多的特性以及更人性化的API。最近

Python爬虫中文出现乱码、转码

weixin_44415561的博客

06-16

544

参考Python爬虫中文出现乱码、转码

解决python中遇到的乱码问题

qq_38472574的博客

06-06

128

解决python中遇到的乱码问题

python 中文乱码解决方式

Ki11erBee的博客

09-20

303

在编写爬取站长素材的免费简历模板时发现数据的名称成为了乱码 page_text = requests.get(url=new_url,headers=headers).text name_data = li.xpath('.//a//@alt')[0]+'.zip' 说明编码出现了问题此时对数据进行解码再进行编码就可以了 name_data = name_data.encode('iso-8859-1').decode('utf-8') 再放一张编码表 ...

python保存数据汉字乱码

10-20

如果你的 Python 程序采集到的数据在保存成 CSV 格式的文件时出现了乱码，可以尝试以下两种解决方法： 1. 在将数据写入 CSV 文件之前，将数据转换成 Unicode 编码也是一种常见的解决方法。你可以使用 Python 中的 ...