关于request爬取的时候出现乱码问题

最新推荐文章于 2024-01-25 11:56:25 发布

原创最新推荐文章于 2024-01-25 11:56:25 发布 · 941 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

13 篇文章

订阅专栏

本文介绍了解决从12306网站爬取数据时出现的中文乱码问题，通过调整编码方式为utf-8，成功解决了中文字符的乱码显示，确保了爬虫获取信息的准确性。

学习爬虫的时候，经常会遇到这种问题，即显示的内容为乱码。
以下为12306作为一个例子，执行代码如下

import requests

response = requests.get('https://www.12306.cn')
print(response.encoding)
print(response.text)

在这里插入图片描述
可以看到返回response编码类型为 ISO-8859-1，文本输出中中文字符为乱码。

那么最简单的方法就是增加utf-8编码的转化，如下：

import requests

response = requests.get('https://www.12306.cn')
response.encoding = 'utf-8'
# 查看编码方式
print(response.encoding)
print(response.text)

这样问题就解决了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cuiljiang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

用requests爬取内容出现乱码及其解决办法

weixin_44845650的博客

05-15

2636

1、出现乱码情况 2、出现乱码原因当Requests推测的文本编码与源网页编码不一致时，会导致乱码问题的出现。 r=requests.get(url,params=payload) print(r.encoding) #查看Requests推测的文本编码 print(r.apparent_encoding) #查看源网页编码运行结果： ISO-8859-1 utf-8 3、解决方法 r=requests.get(url,params=payload) r.encoding="utf-8" p

解决Python爬取百度页面出现中文乱码问题

bashine的博客

06-16

3048

解决Python爬取百度页面出现中文乱码问题

参与评论您还未登录，请先登录后发表或查看评论

python学习之 requests爬虫导致的中文乱码

sentimental_dog的博客

09-25

1万+

python requests库爬虫中文乱码

python中——requests爬虫【中文乱码】的3种解决方法

2301_82000445的博客

01-25

1万+

👉Python学习路线汇总👈Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（学习教程文末领取哈）👉Python必备开发工具👈。

requests爬虫【中文乱码】的3种解决方法

2301_77195717的博客

10-13

1680

使用requests库时，选择使用的文本响应方法不合适，以至于使用【requests.text】自动获取到的网页编码与实际网页的编码不一致，导致中文乱码。在这里请注意【requests.text】与【requests.content】最大的区别在于后者常用于图片和视频，且不会解码，直接以二进制形式返回。由于习惯，使用requests库时，常用【requests.text】进行文本响应，1.直接将requests.text换成requests.content。3.指定编码格式为UTF8。

python 使用 requests爬取网站出现格式错误的解决方案

ZJ_11701的博客

11-16

547

编码的历史这里就不再赘述，直接上解决方案: res = requests.get(url) res.encoding = res.apparent_encoding

request详解之一，中文乱码解决

weixin_30342827的博客

01-29

113

httpservletrequest是接口request实现了httpservletrequestrequest是tomcat的catalina.jar下面的类注：catalina远程轰炸机request调用的getCharacterEncoding()实际上是tomcat-coyote.jar中request类实现的注：catalina.jar和tomcat-coyote.jar两个jar包...

Requests库爬取页面乱码问题（以脚本之家为例）

STAR_LORD

09-25

1765

爬取脚本之家python文章列表，发现中文乱码 import requests from bs4 import BeautifulSoup url = 'https://www.jb51.net/list/list_97_1.htm' response = requests.get(url) html = response.text soup = BeautifulSoup(html,'lxm...

NodeJs request爬虫数据乱码解决方法

qq_34060370的博客

05-16

1715

文章目录1.引入2.爬虫举例流程3.NodeJs乱码错误分析4.解决方法 1.引入本人初识小程序云开发与nodejs不久，文中可能存在错误说法和术语，欢迎指正。最近写微信小程序云函数，需要用nodejs爬取一个网站的信息，但是结果是一个挺意外的乱码，在自己花费挺多时间下解决了，在此记录下来。 2.爬虫举例流程用fiddler抓取想要爬取的请求，得到原生的请求header和参数用nodejs的request模块写模拟请求的代码，把fiddler得到的header写入其中（用百度网址测试）运行

python爬虫表格数据中文乱码,python爬取网站遇到中文乱码的解决方案

weixin_28278377的博客

03-26

1083

乱码问题1：由于Requests模块带来的乱码。当HTTP header有指定字符集的时候，会采用指定的字符集。当HTTP header不存在明确指定的字符集，Requests会去猜测编码方式。但是这时候不能保证一定会解码正确，可能你get下来的文档都是这样的：解决办法比较简单，加上这么一句话就行了：get对象.encoding = 'utf-8'new_url = 'https://baike....

Python爬取12306实现火车票查询

人生苦短，我用Python

11-17

1万+

介绍：除了官方的12306网站，其他的很多网站都提供了购买查询的功能，像携程的铁友，途牛等等。这些网站他们盈利大都是通过广告的收入，以及通过购票带动的网站内酒店、景点额外收入，他们的网站界面友好型优于12306，使得在购票入口中占据了一定份额。但是归根到底，所有购票的APP、网站都是拿的12306的基础数据，或者说是12306的接口，只是做了前端界面的设计。在程序员的眼中，有接口就能创造世界（然而

python 爬取12306数据

youseenoonehere的博客

04-06

1万+

python 获取12306的数据，查询剩余火车票的数量。对12306的url进行分析，解析12306返回的json数据。

python 3爬取 12306余票

memory_qianxiao的博客

08-22

5286

马上暑假集训结束，又要开学了，暑假集训老师让我们交暑假的学习成果~~虽然制作了几个小的网络爬虫的东西软件，什么淘宝，京东，天气，图片爬取的....但还是想要交个更好的，毕竟还是有成绩的。。。爬取12306功能是实现了，但是图形界面看到一位博主模仿12306把图形界面写的那么好看，我就搬过来，不停的修改，一直有个BUG错，两个py文件调用其中一个函数返回的列表居然是空的！！！然而打印那个列表有...

Python+requests 爬取网站遇到中文乱码怎么办？

weixin_30477797的博客

04-07

4858

分类： Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据，使用了python自带的urllib和第三方库requests，解析html使用了beautifulsoup以及lxml 这里说下lxml，lxml是python的一个html、xml解析库，lxml使用XPath能快速，简单的定位元素并获取信息。下面进入正题注：Python3...

解决requests爬取网页源代码出现乱码

qq_41081716的博客

11-24

2633

爬虫requests解析后中文乱码问题

weixin_40470072的博客

04-10

1904

在使用requests爬虫后解析网页时总会出现中文乱码问题。比如如下乱码 Ê±×¯ÎÀÉúÔº 。解决办法就是：'Ê±×¯ÎÀÉúÔº'.encode('latin1').decode('gbk')时庄卫生院Python2的话在字符串前面加一个 u 声明他是Unicode就行（如果不行，请看一下在脚本第一行是否有如下代码#encoding=utf-8）这种问题究竟怎么解决为什么会有乱码呢。...

解决request获取网页之后的中文乱码问题

渡渡鸟的博客

11-05

4519

在爬取网页的时候经常使用到request库来获取网页的源码 request会根据网页中的编码方式来进行编码，但是有时request获取到的网页中中文出现了乱码，但是查看获取到的编码当时依旧是utf-8的编码。按照其他的方法来指定编码方式为utf-8后并不能解决这个问题 response = requests.get(url, headers = headers) response....

Java Web后台从request里面获取的数据是乱码问题

最新发布

11-26

解决 request 返回数据乱码问题有多种方法，以下为不同场景下的解决方式： ### Java Servlet 场景在 Java Servlet 中，对于 POST 和 GET 请求，可通过设置请求的字符编码来解决中文乱码问题。以 POST 请求为例，因为 POST 是通过流 `getReader()` 方法传输数据，需要改变流的编码格式为 UTF - 8。示例代码如下： ```java package com.huanle.web; import javax.servlet.ServletException; import javax.servlet.annotation.WebServlet; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import java.io.IOException; @WebServlet("/req4") public class RequestDemo4 extends HttpServlet { protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { // 先解决乱码问题Post，因为Post是通过流getReader()方法传输数据，改变流的编码格式为utf-8 request.setCharacterEncoding("utf-8"); // 获取username System.out.println("==========获取username========="); String username = request.getParameter("username"); System.out.println("解决后" + username); } protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { this.doGet(request, response); } } ``` 此代码将请求的字符编码设置为 UTF - 8，从而解决中文乱码问题[^4]。 ### Java 手动转换编码还可以通过手动转换编码来解决乱码问题。先拿到乱码反向查找 ISO - 8859 - 1 码表，获取原始数据，再构造一个字符串让它去查找 UTF - 8 码表，以得到正常数据，示例代码如下： ```java String value = request.getParameter("username"); // 拿到乱码反向查找 iso-8859-1 码表，获取原始数据 // 在构造一个字符串让它去查找UTF-8 码表，已得到正常数据 ``` 这样可以将乱码数据转换为正确的中文数据[^2]。 ### SpringMVC 场景在 SpringMVC 中，可以使用专门的过滤器来解决请求的中文乱码问题。在 `web.xml` 中进行如下配置： ```xml  <filter> <filter-name>characterEncodingFilter</filter-name> <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class> <init-param> <param-name>encoding</param-name> <param-value>UTF-8</param-value> </init-param> </filter> <filter-mapping> <filter-name>characterEncodingFilter</filter-name> <url-pattern>/*</url-pattern> </filter-mapping> ``` 该配置会对所有请求应用字符编码过滤器，将编码设置为 UTF - 8，从而解决中文乱码问题[^5]。 ### NodeJs 爬虫场景在 NodeJs 爬虫中遇到返回数据乱码的情况，可通过以下步骤解决： 1. 用 Fiddler 抓取想要爬取的请求，得到原生的请求 header 和参数。 2. 用 NodeJs 的 `request` 模块写模拟请求的代码，把 Fiddler 得到的 header 写入其中（用百度网址测试）。 3. 若运行后返回的 `body` 是乱码，可参考相关资料进一步处理，如对比 Python 代码爬取测试结果（相同代码 Python 不会乱码），分析乱码原因并解决[^3]。