Python 中beautifulsoup乱码（实际上是requests返回结果乱码）

最新推荐文章于 2023-12-23 20:00:00 发布

dexfire29

最新推荐文章于 2023-12-23 20:00:00 发布

阅读量720

点赞数

分类专栏： Python 爬虫

本文链接：https://blog.youkuaiyun.com/QQ275176629/article/details/104443468

版权

Python 同时被 2 个专栏收录

3 篇文章

订阅专栏

爬虫

2 篇文章

订阅专栏

Python 中beautifulsoup乱码（实际上是requests返回结果乱码）

for url in urls:
    resp = rq.get(url)
    # print(resp.content)
    bs = bs4.BeautifulSoup(resp.text, "html.parser")
    h1 = bs.findAll("h1")
    pattern = re.compile("^2019年(.+)招生计划$")
    pattern.match(h1[0].text)

    print(h1[0].text)  # .encode("utf8") string.decode("utf8")

    # res = bs.findAll(is_entry_class)
    res = bs.select("div.entry table")

    if res is not None:
        i = i+1
        print(i)
        for child in res[0].tbody.children:
            row = []
            for son in child.children:
                row.append(son.text)
            print("\t".join(row))
        print()

调试发现 resp 返回结果采用ISO-8859-1 编码，而实际网站中头部中字符集为utf8

<html xmlns="http://www.w3.org/1999/xhtml"><head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>2019年...</title>

在这里插入图片描述
调试方法：
直接修改返回结果的编码

for url in urls:
    resp = rq.get(url)
    # print(resp.content)
    resp.encoding = "utf8"
    ...

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dexfire29

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

解决Python BeautifulSoup中文乱码问题

DevForge的博客

10-06

826

在上述示例中，我们使用chardet.detect()函数检测网页的编码方式，并将其存储在encoding变量中。然后，我们使用response.content.decode()方法将网页内容从检测到的编码方式转换为UTF-8，并将其存储在text变量中。然后，我们使用BeautifulSoup解析网页时，将’html.parser’作为解析器，并将response.text作为输入。根据具体情况，选择适合的方法来解决中文乱码问题，以确保正确解析网页中的中文内容。如果你还有其他问题，请随时提问。

Python 里 BeautifulSoup 的编码处理方法

最新发布

Python编程之道的博客

04-08

634

在网络爬虫和网页数据处理的过程中，我们经常会遇到各种不同编码的网页。正确处理这些编码对于准确解析网页内容至关重要。本文的目的是详细介绍 Python 中 BeautifulSoup 库的编码处理方法，帮助开发者解决在使用 BeautifulSoup 解析网页时遇到的编码问题。范围涵盖了常见的编码类型，如 UTF - 8、GBK、ISO - 8859 - 1 等，以及如何在不同场景下使用 BeautifulSoup 进行编码处理。

参与评论您还未登录，请先登录后发表或查看评论

关于Python beautifulsoup 输出中文乱码问题

u012783669的博客

06-18

7616

我在学习网络爬虫的过程中遇到一个很奇怪的问题，爬取同一个网站的不同页面（编码方式都为'gb2312'）时，beautifulsoup有时候输出中文是正常的有时候是乱码。查找资料：http://bbs.chinaunix.net/thread-4084647-1-1.html上面说：表面上看起来从BeautifulSoup解析后得到的soup，打印出来是乱码，但是实际上其本身已经是，正确的（从原始的...

BeautifulSoup中文乱码解决问题 python 爬虫乱码

12-27

3355

1 import urllib2 2 from BeautifulSoup import BeautifulSoup 3 4 page = urllib2.urlopen('http://www.leeon.me');

python BeautifulSoup乱码问题

jhoojhooablido

12-18

1323

用爬虫爬取天气数据，需要先获得原网站上城市中文名称与汉语拼音的对应关系。在编写如下代码进行处理的时候，出现中文乱码。查了很多blog发现方法并不好使。除了这位大神。。。。。这位出现问题就去阅读文档的大神。。。。 https://www.jianshu.com/p/69401b84419e 查阅requests和bs4的官方文档，发现了这样两段描述： When you make a requ...

bs4 乱码_python使用beautifulsoup乱码问题

weixin_36250220的博客

02-15

392

使用BeautifulSoup中的find_all方法输出中文乱码，为ASCII码，但输出是一个对象，不能使用decode()和encode()，不知该如何转换代码如下：#coding:utf-8import urllib2from sgmllib import SGMLParserfrom bs4 import BeautifulSoupimport reimport sysreload(sys...

Python3.x：BeautifulSoup()解决中文乱码问题

amberom的专栏

07-28

2748

问题：　　BeautifulSoup获取网页内容，中文显示乱码；解决方案：　　遇到情况也是比较奇葩，利用chardet获取网页编码，然后在BeautifulSoup构造器中传入from_encoding=参数，获取的还是一堆乱码；无奈之下，在网络上大搜索一通，结果还是没搞清楚原因，但是问题倒是找到了解决方案；在这里提供下，给遇到同样问题的码友：如果中文页面编码是gb2312，gbk，在BeautifulSoup构造器中传入from_encoding="gb18030"参数即可解决乱码

python爬虫使用requests和BeautifulSoup出现中文乱码

Song_Lynn的博客

10-07

2024

python爬虫使用requests和BeautifulSoup出现中文乱码 requests和BeautifulSoup都是自行检测网页编码并进行编码的，所以可能会出现检测错误，需要手动更改编码方式，使得中文能够正常显示 from bs4 import BeautifulSoup import requests headers = { 'user_agent': 'Mozilla/5.0 (...

Python爬虫中文乱码处理实例代码解析

涛哥聊Python

12-23

1823

在本文中，深入探讨了Python爬虫中处理中文乱码的各种方法，旨在帮助大家解决在网络数据抓取过程中常见的编码问题。这些问题可能导致数据解析不正确，影响到数据质量和可靠性。从明确指定编码、使用第三方库（如chardetftfyunidecode）、自动处理、手动字符集转换、检查响应头、处理异常等多个角度介绍了解决方案。这些方法提供了多样性，可以根据具体情况来选择最适合的方法。此外，还提到了如何检查源网页的编码信息，以确保在解析网页内容时使用正确的字符集。

Python网络编程（五）-利用requests和BeautifulSoup进行网络数据抓取和解析

记录和分享程序人生的点点滴滴

02-21

3318

在介绍了urllib，urllib3，requests等数据爬取相关的python库后，今天，再介绍一个更为流行的网页数据爬虫库，BeautifulSoup。 BeautifulSoup是有一个非常流行的python库，最主要的功能是从网页抓取数据。 BeautifulSoup可以对抓取的网页中的数据进行分析。BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为 utf-8 编码。你几乎不需要考虑编码方式，当然，你也可以指定编码方式。 BeautifulSoup和request

Python BeautifulSoup中文乱码问题的2种解决方法

12-25

解决方法一：使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码代码如下:from bs4 import BeautifulSoupimport urllib2url = ‘//www.jb51.net/’page = urllib2.urlopen(url)soup = BeautifulSoup(page,from_encoding=”utf8″)print soup.original_encodingprint (soup.title).encode(‘gb18030’)file = ope

Python BeautifulSoup中文乱码问题

weixin_45401179的博客

12-12

2007

今天使用BeautiSoup遇到乱码，在网上找到解决方案，特地记录一下 1、先查看网页的编码格式一般是在网页的开头 2、将requests的结果修改为相对应的编码格式 res1=requests.get(url,headers=head) res1.encoding='utf-8' soup1=BeautifulSoup(res1.text,'lxml') 3、再正常的使用BeautiSoup就好了 ...

python爬取网页有乱码怎么解决_python用beautifulsoup爬取网页时出现乱码的解决方法...

weixin_39990660的博客

11-21

737

一、原因：在用beutifulsoup爬取网页的信息时，我们会遇到信息变成乱码的情况，之所以出现这种情况，是因为requests和beautifulsoup模块都会自行评测原网页的编码格式。二、解决办法：（1）查看网页编码格式：既然要将soup中编码格式改为正确的，那我们首先就要知道你要爬取的网页编码格式是什么。首先是F12—>到控制台Console—>输入document.charset。此处的...

python BeautifulSoup解决中文乱码问题

weixin_34397291的博客

04-08

700

刚开始用BeautifulSoup抓取网页，遇到中文乱码问题，在网上搜了一些方法，先记录于此，看看哪种方法好用 1、http://leeon.me/a/beautifulsoup-chinese-page-resolve import urllib2 from BeautifulSoup import BeautifulSoup page = urllib2...

使用Python BeautifulSoup爬取中文网页，编码为乱码或者不可见字符的解决方法

跬步Python股票数据量化分析

03-08

1949

使用Python BeautifulSoup爬取中文网页，编码为乱码或者不可见字符的解决方法使用python做爬虫的时候，有时候爬下来的中文内容为乱码，该如何解决呢？一个比较简单解决方法，在使用request获取的html内容后，设定编码方式为'utf-8'，然后在使用BeautifulSoup解析，如下： url = 'http://www.****acb.html' r = reque...

笔记003：记录BeautifulSoup 提取中文时候出现乱码如何解决

飞人的博客

10-04

1317

一般提取网页中文时候都不会出现乱码，但是恰巧今天碰到了，运行出现下面。今天提取某网站的网页中的中文，发现出现乱码，将解决的方法记录一下。我用火狐浏览器打开网站地址，发现是gb2312编码。1、开始时候代码如下，

bs4 乱码_requests和BeautifulSoup中文编码转换心得

weixin_36271649的博客

02-15

1206

最近在自学用python进行网页数据抓取，结果被中文乱码的问题折腾了好久。网上google了各种解决方案都无法解决我遇到的问题，索性自己深入的研究了下，终于把这难题给解决了。在此梳理下整个分析过程。网站&开发工具遇到的问题一开始我的代码是这样写的：response = requests.get('http://www.jjwxc.net/fenzhan/noyq/')soup = bs4....

BeautifulSoup4 print() 输出中文乱码解决方法

08-04

4974

import requests from bs4 import BeautifulSoup #pip install beautifulsoup4 ''' BeautifulSoup 输出中文 => print cmd 默认编码是 Codepage 936 https://www.baidu.com/ 网页编码是 uft-8 导致 print() 输出乱码解决方法: 让 r.enc...

Python爬虫解析网页的4种方式值得收藏

Python学习Q群696455390

12-28

2988

用Python写爬虫工具在现在是一种司空见惯的事情，每个人都希望能够写一段程序去互联网上扒一点资料下来，用于数据分析或者干点别的事情。我们知道，爬虫的原理无非是把目标网址的内容下载下来存储到内存中，这个时候它的内容其实是一堆HTML，然后再对这些HTML内容进行解析，按照自己的想法提取出想要的数据，所以今天我们主要来讲四种在Python中解析网页HTML内容的方法，各有千秋，适合在不同的场...

beautifulsoup中文是乱码

12-27

### 解决BeautifulSoup解析HTML时中文显示为乱码的方法对于使用BeautifulSoup解析HTML文档过程中遇到的中文乱码问题，可以通过多种方法来解决。一种有效的方式是在创建`BeautifulSoup`对象的时候传递合适的编码参数。如果目标网页采用的是GBK或GB2312这样的编码标准，则可以在初始化`BeautifulSoup`实例时通过设置`from_encoding='gb18030'`来确保正确读取并转换字符集[^1]。另外值得注意的一点是，尽管在屏幕上看到的内容似乎是乱码形式展示出来的，但实际上这些数据已经被正确地按照Unicode进行了内部表示；因此这主要是呈现层面上的问题而不是实际的数据损坏[^2]。然而，在某些情况下，乱码可能源于请求库（如`requests`）未能准确识别响应内容的实际编码格式。为了避免这种情况的发生，建议先手动设定HTTP响应对象中的`.encoding`属性再将其文本内容交给BeautifulSoup处理。例如： ```python import requests from bs4 import BeautifulSoup response = requests.get('http://example.com') response.encoding = 'gb18030' soup = BeautifulSoup(response.text, "html.parser", from_encoding="gb18030") print(soup.prettify()) ``` 此外，当遇到因编码不一致而导致的字符丢失现象时，同样应该考虑调整编码配置以实现最佳兼容性。这是因为浏览器和服务器之间可能存在不同的默认编码约定，而这种差异可能会引起不必要的麻烦[^4]。