scrapy抓中文，保存csv文件乱码解决方法

最新推荐文章于 2022-05-03 23:12:00 发布

转载最新推荐文章于 2022-05-03 23:12:00 发布 · 487 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/passagain/p/10796714.html

文章标签：

#python #开发工具 #爬虫

本文介绍了解决在保存JSON、TXT及CSV文件时遇到的中文乱码问题的方法。通过在settings.py文件中设置FEED_EXPORT_ENCODING参数为'utf-8'或'gb18030'，可以确保中文字符正确显示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

保存json和txt文件，出现这种东西不是乱码，是unicode，例如：

\u96a8\u6642\u66f4\u65b0> \u25a0\u25a0\u25a

在settings.py文件中加入下面一句code，之后就是中文了。

FEED_EXPORT_ENCODING ='utf-8'

保存csv表格文件时，会出现中文乱码，这个确实是乱码，例如：

瀵掑啲瀹濈彔鎶勮鎴愬姛 鐖嗗彂浼ゅ 40涓?寮€蹇冧竴涓?

在settings.py文件中加入下面一句code，表格就是中文了

FEED_EXPORT_ENCODING = 'gb18030'

所以，编程时，只要有中文，把上面两句直接先复制在settings文件里，生成文件时就不会错了。

转载于:https://www.cnblogs.com/passagain/p/10796714.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30522095

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用Python爬虫将抓取的数据保存到CSV文件

2201_76125261的博客

01-13

937

爬虫的基本原理是从互联网上抓取公开的网页内容。爬虫会模拟浏览器的行为，访问网站，获取页面源代码，然后提取页面中的信息，最后将抓取到的数据保存到本地数据库或文件中。发送请求：爬虫向目标网站发送请求，获取响应数据。解析网页：使用解析库提取网页中的信息。数据提取：根据网页结构提取所需的数据。数据存储：将提取到的数据保存到CSV文件、数据库或其他存储系统。在本文中，我们将着重讲解如何使用Python和爬虫库来抓取网页数据，并将数据保存为CSV文件。

Scrapy之CsvItemExporter生成的CSV文件乱码解决

木小鱼的笔记

09-03

1317

环境信息 Python 3.6.5 Scrapy 2.2 导出文件逻辑 self.file = open("/Users/chenjunfeng02/Downloads/enrolldata.csv", "wb") self.exporter = CsvItemExporter(self.file, fields_to_export=["provinceCode", "provinceName", "collegeCode", "collegeName"])

参与评论您还未登录，请先登录后发表或查看评论

scrapy生成csv文件空行、csv文件打开乱码（解决方案）

12-17

628

一、scrapy生成csv文件会有多余的空行当使用scrapy crawl testspider -o test.csv后，生成的默认csv文件每一行之间是有空行的，解决的方法是修改scrapy的源代码首先打开C:\Users\fengyun\AppData\Local\Programs\Python\Python36-32\Lib\site-packages\scrapy里的export...

scrapy包含中文字符的字段写入csv时，报错无法解析某字符

bxprog的专栏

07-01

386

现象：向csv文件（已经设为utf-8格式）写入标题行时，当其中有字段包含中文字符时，报错无法解析某字符原因：该python代码文件是DOS格式，不是utf-8格式解决方法：该代码文件另存为utf-8格式...

你的Scrapy保存CSV数据遇到乱码问题？这里有个完美的解决方案！

懂亿点的博客

05-03

3280

Scrapy框架保存CSV数据遇到乱码问题，这里有两种解决方案，供你选择

Scrapy解决创建csv文件乱码问题

baidu_40801518的博客

08-25

4132

博主初学scrapy，用 “scrapy crawl 爬虫名.py -o test.csv” 创建出来的test.csv直接用excel打开，中文部分是乱码，网上查了之后发现比较有效的就是用一些编辑器另存为带BOM的。但是在学到Feed exports后，查资料的过程中发现了直接通过设置来解决的方法：在创建项目的settings.py中，添加如下代码 FEED_EXPORT_ENCODING...

Scrapy爬虫之中文乱码问题

自封的羽球大佬

08-28

9806

问题描述： I. #这是.csv格式的文件，有中文乱码现象。 [root@Uu jianshu]# cat jianshu.csv url,title,author http://www.jianshu.com/p/2a7a594816e1,彖浣犳村?鏍? [root@Uu jianshu]# ...

python的scrapy爬虫——豆瓣电影top250爬虫练习——保存到CVS文件

hhyiyuanyu的博客

05-04

1658

xxx\doubanmovie\doubanmovie\items# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.html # import scrap...

利用python爬取豆瓣音乐TOP250的数据----最终结果生成一个music.csv文件

08-24

利用python爬取豆瓣音乐TOP250的数据----最终结果生成一个music.csv文件，里面包含247首歌曲的名称作者发行。如果有按照代码就不会出现空行和乱码的现象。

python保存变量为csv_python excel存储为csv

weixin_39695241的博客

12-18

1437

Python的小数据存储，用什么格式更有逼格？小数据存储我们在编写代码的时候，经常会涉及到数据存储的情况，如果是爬虫得到的大数据，我们会选择使用数据库，或者excel存储。但如果只是一些小数据，或者说关联性较强且存在存储后复用的数据，我们该如何存储呢？使用open保存文本最简单、粗暴+无脑的存储方式就是保存成一个文本文档了。使用open...文章云栖公开课2019-11-281336浏览量pyth...

用Scrapy抓取的中文字符导出到csv中出现乱码

lonesome_zxq的博客

12-17

1955

背景按照这篇文章学些Scrapy框架，爬取豆瓣电影Top250的信息，将信息导入到本地csv文件时，由于电影名称是中文，存储时出现了乱码。解决办法在setting文件中加入这样一行语句： FEED_EXPORT_ENCODING = ‘utf-8-sig’ 保存setting文件。问题解决： ...

关于使用Scrapy命令导出csv文件时乱码和带空行问题

范翻番樊的博客

04-12

2324

今天使用Python(我的python版本是3.6)的Scrapy(版本1.5.0)框架爬了一些数据,当我通过scrapy crawl qs -o qius.csv命令把数据导出来保存成csv文件打开时发现里面是乱码而且带空行所以就研究一下如何解决这个问题, 给遇到相同问题的朋友提供一个参考。关于乱码我是这样解决的(两个方法)： (1) 可以使用notepad++, editplus等文本编...

利用Scrapy框架爬取数据命令行保存成csv出现乱码的解决办法

Miracle.Zhao的博客

03-19

4127

Scrapy是一个很好的爬虫框架，但是在我们把爬取的数据保存成csv的时候，我们常常会发现，保存下来的数据是乱码，网上也搜索了很多中解决办法，但是很多都是解决不了，先总结下来。我们在命令行里执行Scrapy框架的时候的步骤如下： 1，首先我们先进入我们spider的目录 cd /Users/zhaomeng/licaiproduct/licaiproduct/spiders 2，执...

Scrapy爬到的数据保存到csv后，用Excel打开乱码的解决方法

duanyuchen的博客

06-13

526

右键文件，选择记事本打开，选择文件>另存为，编码选择ANSI>点击保存，打开xxx.csv 中文恢复正常

记录scrapy获取数据，存储到csv文件，excel打开乱码的问题

zwl773993221的专栏

06-09

494

这个其实挺简单，归根结底是Excel显示的问题，需要打开的文件名是scrapydata.csv，新建一个Excel，打开 -> 数据 -> 自文本，然后找到需要打开的文件scrapydata.csv，如下图所示：接下来的设置步骤如下： 1. 2. 3.剩余的步骤可以忽略，Finish，搞定收工 ...

爬虫后数据输出到CSV文件乱码问题的解决办法

qq_33321762的博客

07-14

4484

notepad2打开，选择编码ANSI，保存，再用excel打开就是正常的了点击打开链接

解决使用Scrapy命令导出csv文件时乱码问题

桃夭丶的博客

05-25

640

每次，爬取的数据都是乱码，就很烦！！！看了网上的各种说法：在settings.py里加了各种 FEED_EXPORT_ENCODING='utf-8' #FEED_EXPORT_ENCODING='GB2312' #FEED_EXPORT_ENCODING='utf-8-sig' 依旧解决不了，这个问题。。。。。。。。突然发现我的scrapy源码目里的写的是“UTF-8”，然后把他改成gbk就可以了。 class CsvItemExporter(BaseItemExporter): def

scrapy pipeline导出csv乱码处理，关键点是要把编码格式改为utf-8-sig

avmgcehjk98828335的博客

02-21

507

from scrapy import signalsfrom scrapy.exporters import CsvItemExporterclass JsgovcspiderPipeline(object): def __init__(self): self.files = {} @classmethod def from_crawler(cls, cr...

执行代码后并没有生成news.csv文件

最新发布

05-29

<think>嗯，用户遇到了Scrapy爬虫项目配置pipelines后没有生成news.csv文件的问题。我需要仔细分析可能的原因，并提供解决方案。首先，用户提到已经配置了pipelines，但未生成文件。可能的问题点有几个方面：1.**Pipeline未正确启用**：在settings.py中是否添加了ITEM_PIPELINES配置？有时候用户可能会忘记取消注释或正确设置路径。例如，正确的配置应该是`'tipdm_news.pipelines.CsvCustomPipeline':300,`，其中数字代表执行顺序。2.**文件写入权限问题**：检查项目目录是否有写入权限。如果是在某些受限制的目录中运行，比如系统目录，可能会导致无法创建文件。建议用户将项目移到有权限的目录，或者以管理员权限运行。3.**文件路径错误**：在pipeline中打开文件时，路径是否正确？如果使用相对路径，可能相对于当前工作目录，而运行爬虫时的目录可能与项目目录不同。建议使用绝对路径，或者在项目目录下运行命令。 4. **编码问题**：用户使用了`'utf-8-sig'`编码，但可能在某些系统中，CSV的写入方式不正确。例如，在打开文件时是否使用了二进制模式？比如`open('news.csv', 'ab')`中的`ab`是否正确，或者是否需要先写入表头？5.**数据未正确传递**：确保spider中正确yield了item，并且在parse方法中正确传递了item到pipeline。可能spider中的提取逻辑有误，导致没有item被传递到pipeline，从而文件未被创建。6.**缓存或中间件问题**：用户配置了HTTP缓存，可能导致爬虫没有实际发起请求，从而没有数据。可以尝试禁用缓存，检查是否生成文件。7.**异常处理不足**：在pipeline中是否有异常处理？如果某个环节出错，可能导致文件未被正确关闭或写入。添加日志记录或异常捕获可能会有帮助。接下来，参考用户提供的代码，特别是pipelines部分，用户使用了自定义的CsvItemExporter，但可能没有处理表头。例如，第一次写入时应该包含表头，而后续追加不需要。这可能导致文件虽然存在，但内容为空。或者，如果爬虫没有返回任何item，文件可能未被创建。另外，用户提到使用`include_headers_line=False`，这会导致CSV没有列名，但不会影响文件的生成。问题可能在于文件是否被正确打开和关闭。例如，在open_spider和close_spider方法中是否正确处理了文件的打开和关闭。可能的解决方案步骤： -**检查settings.py中的ITEM_PIPELINES配置**，确保路径正确且已启用。 -**确认运行爬虫时的工作目录**，确保文件路径正确。- **添加日志输出**，检查是否有item被处理，或者在pipeline中加入打印语句确认process_item被调用。- **检查文件权限**，确保有写入权限。 -**尝试使用内置的Feed导出**，例如运行`scrapycrawl news_spider-onews.csv`，看是否能生成文件，以确定是否是pipeline的问题。 -**查看Scrapy的日志输出**，是否有错误提示，比如权限拒绝或路径不存在。此外，用户提供的pipeline代码中，使用了追加模式`ab`，这在首次运行时可能正确，但如果文件已存在，可能会追加数据而没有表头。可能需要先检查文件是否存在，并在首次写入时包含表头。或者，使用`wb`模式覆盖写入，但这样每次运行会覆盖旧数据，需要用户根据需求调整。总结可能的原因后，逐步引导用户检查配置、路径、权限和日志，确保每一步都正确执行。同时，建议用户简化pipeline，使用Scrapy内置的CSV导出功能测试，以确定问题是否出在自定义pipeline上。</think>### Scrapy未生成CSV文件的排查与解决方案 #### 一、检查管道配置状态 1. **确认settings.py配置** 确保`ITEM_PIPELINES`已正确启用并指向自定义管道类： ```python ITEM_PIPELINES = { 'tipdm_news.pipelines.CsvCustomPipeline': 300, } ``` [^2] 若数值设置为`0`或未取消注释，会导致管道失效 2. **验证文件操作权限** 在项目根目录执行： ```bash touch test.csv && rm test.csv ``` 若报权限错误，需调整目录权限或更换存储路径 #### 二、优化CSV输出管道（pipelines.py） ```python from scrapy.exporters import CsvItemExporter class CsvCustomPipeline: def __init__(self): self.file = None self.exporter = None def open_spider(self, spider): self.file = open('news.csv', 'wb') # 二进制写入模式 self.exporter = CsvItemExporter(self.file, encoding='utf-8-sig') self.exporter.start_exporting() self.exporter.fields_to_export = ['title', 'content', 'publish_time', 'view_count', 'url'] # 指定字段顺序 def process_item(self, item, spider): self.exporter.export_item(item) return item def close_spider(self, spider): self.exporter.finish_exporting() self.file.close() ``` [^1] 关键改进点： - 使用`wb`模式确保每次创建新文件 - 显式指定字段顺序避免乱序 - 添加编码参数解决中文乱码 #### 三、调试验证方法 1. **启用控制台日志** 在settings.py中添加： ```python LOG_LEVEL = 'DEBUG' ``` 2. **临时启用控制台输出** 运行命令测试数据流： ```bash scrapy crawl news_spider -o temp.json ``` 3. **断点检查管道执行** 在`process_item()`方法内添加调试语句： ```python import logging logging.debug(f"Processing item: {dict(item)}") ``` #### 四、常见故障原因对照表 | 现象 | 可能原因 | 解决方案 | |------|----------|----------| | 无文件生成 | 管道未启用/路径错误 | 检查settings.py配置 | | 空文件 | 未正确传递item | 验证spider的yield逻辑 | | 乱码 | 编码设置错误 | 使用`utf-8-sig`编码 | | 权限错误 | 文件被占用 | 关闭Excel等占用程序 | #### 五、替代方案验证使用Scrapy内置CSV导出器测试： ```bash scrapy crawl news_spider -o news.csv -t csv ``` 若成功生成文件，则说明自定义管道存在问题 ###