python2.7 爬虫中文显示错误

最新推荐文章于 2025-12-31 23:52:26 发布

原创最新推荐文章于 2025-12-31 23:52:26 发布 · 385 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #utf-8

本文介绍了一种使用Python的BeautifulSoup库处理特定HTML元素的方法。通过遍历并分行输出找到的文本，解决了从HTML中提取的数据为特殊字符串格式的问题。

import：BeautifulSoup，selenium

text1 = soup.find(class_='hot_recommend').find_all('p')
print（text）

输出的text是/u开头字符串

以为是编码的原因

最后发现只要把text分行输出即可

for text in text1:
				text_w = str(text)
			        #text_w.encode('utf-8')
				print(text_w)
				f.write(text_w)
				f.write("\n")
				print("Write over~~~~~~~~~~~~~~~~~~~~~~~~~~~~~")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tottiwxt

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python爬虫常见错误

Green_F的博客

12-21

829

这里是引用网页出现乱码 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AUElB64E-1597473279714)(assets/image-20200522135847735.png)] 出现乱码的原因是因为网页解码过程中没有设置如何编码 response.encoding = response.apparent_encoding 请求头参数 InvalidHeader: Invalid return character or leading space in h.

【Python】Python2.7升级Python3

pingguocu3的博客

10-17

972

这次一个很小的一个后台管理系统的服务端项目升级，我差不多花了10天的时间1.python不熟，早点用pycharm修改代码会快很多2.docker也不熟，以前只是启container，在里面操作3.这次摸了这些石头，下次过河应该就会轻松很多截屏2021-01-07上午11.17.16.png可以看到上图中各种版本的image都有，python3.5的，3.8，web专用的。

参与评论您还未登录，请先登录后发表或查看评论

python2.7中文编码报错问题

SissiMeow的博客

08-30

767

Non-ASCII character '\xe5' in file /***/data.py on line 15, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details 的解决办法

解决python2.7中文报错问题

G46SEC

10-28

1253

python默认是不支持中文字符的,但是可以使用# -*- coding:utf-8 -*-来指定解码用的字符集.但这个指定语句写在什么位置是很有讲究的.看下面代码: #!/usr/bin/env python #filename:coding.py # -*- coding:utf-8 -*- s = '个人信息' print s 这样写就不可以,执行的时候会报错..Synt

Python_爬虫_中文乱码

热门推荐

Dream_Hongyu的博客

01-07

1万+

Python爬虫中文乱码，decode('gbk', 'ignore')

python爬虫中文输出问题以及不即时输出问题

不见长安的博客

12-15

1791

使用sublime运行爬虫程序时，会有报错UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence的情况，因为python安装在windows平台上，cmd的默认编码为GBK，所以在cmd中显示中文时会经常提示gbk编码错误。网上搜索一下，其中一

python2.7实现爬虫网页数据

09-20

在讲解python2.7实现爬虫网页数据的知识点之前，我们需要对网络爬虫有一个基本的认识。网络爬虫，也被称为网络蜘蛛或者网络机器人，是一种自动获取网页内容的程序。它按照一定的规则，自动地抓取互联网信息，并将所...

Spider:网络爬虫基于python2.7 闲来无事用于练习

06-15

以上是基于Python 2.7的网络爬虫项目可能涉及的知识点，实际项目可能还会涵盖更多细节，如错误处理、日志记录、爬虫调度策略等。尽管Python 3已成为主流，但理解Python 2.7的爬虫开发仍然对学习现代Python爬虫技术有...

python爬虫URL重试机制的实现方法(python2.7以及python3.5)

09-19

### Python爬虫URL重试机制实现方法在爬虫开发过程中，经常遇到因网络不稳定、服务器响应慢等原因导致请求失败的情况。此时，采用URL重试机制可以有效提高爬虫的成功率与稳定性。本文将详细介绍如何在Python 2.7及...

python爬虫中文不能正常显示问题的解决

dai_girl的博客

05-11

7615

最近作业要用到网站（http://nba.sports.sina.com.cn/players.php）中的数据，初次爬取，中文不能正常显示。查找了很多资料，参考了很多例子。理论没了解很多，但最终实现效果了。直接贴项目中实现的代码：import requests import urllib.request from lxml import etree #要抓取的页面链接 url='http...

Python爬虫及存入txt中文编码错误的解决（一）

WANGZHUCHEN的博客

04-21

3029

HELLO WORLD!愿这是新生活的开端。最近正在写一篇文本挖掘的论文，但是前期需要大量的文本数据作为挖掘的对象。鉴于需要的文本数量数以千计，所以我决定试着写一个爬虫的程序来进行文本的获取。之前只是零星的学过一点爬虫，但是始终没有自己亲自编写过，也不了解爬虫的过程。所以想借助这个机会，来让自己真正意义上的学会利用python进行爬虫的这项技能，熟悉并掌握爬虫的有关知识。预计的学习内容如下：1.P...

Python3 爬虫编写报错及解决方法整理

jayandchuxu的专栏

02-18

4845

将爬虫运行过程中遇到的错误进行整理，方便后来查询运行环境：Python3.6+Pydev 编码错误运行时候报错：UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u2022’ in position 16707: illegal multibyte分析：看描述是编码方面的问题；解决方法：项目—>属性将编码改成utf-8

Python爬虫 XPath解析出乱码解决方法

平人的博客

03-05

3996

请求后加上编码 resp = requests.get(url, headers=headers) resp.encoding = 'GBK'

python unicode字符串

circle的专栏

12-06

5590

转载自：https://www.cnblogs.com/gtarcoder/p/5053284.html 程序存储、传输、操作字符串时，对代码中写好的字符串或者手动输入的字符串，程序会自动将这些字符串按照某种字符集编码（一般为本地系统字符编码）将字符串转换为字节码，这是字符的“解码”，将显示的字符转化为字节码；程序中显示文字时，计算机读取一串字节，选择合适的字符集（一般为本地系统

解决PyCharm下python使用XPath解析html，获取文本时中文乱码问题

qq_23944945的博客

11-11

6709

解决PyCharm下python使用XPath解析html，获取文本时中文为乱码问题文本文件html.txt如下：源文件test.py如下：运行结果(乱码)如下：解决办法01源文件test.py如下：运行结果如下：解决办法02(推荐)源文件test.py如下：运行结果如下：结语最近在学习XPath解析库，但是获取中文文本时总是乱码，网上看了些教程，然并卵，最后只好自己解决：文本文件html.t...

从零开发基于DeepSeek的端侧离线大模型语音助手：全流程指南