ParserError: Error tokenizing data

最新推荐文章于 2024-08-14 17:04:17 发布

原创最新推荐文章于 2024-08-14 17:04:17 发布 · 2w 阅读

3 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

10 篇文章

订阅专栏

csv文件默认的是以逗号为分隔符，但是经常混入中文逗号，这样在读取csv进行数据处理时，一定记得加上一个参数delimiter：

pd.read_csv('D:/datasets/test.csv', sep='，')

这里的逗号是中文逗号即可

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

skyecs

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pandas.errors.ParserError: Error tokenizing data. C error: Expected 16 fields in line 3, saw 2386

LDC，公众号【轻松学编程】

04-11

1416

pandas.errors.ParserError: Error tokenizing data. C error: Expected 16 fields in line 3, saw 2386

pandas.errors.ParserError: Error tokenizing data. C error: out of memory

weixin_46713695的博客

08-18

1308

out of memory 问题解决

参与评论您还未登录，请先登录后发表或查看评论

ParserError: Error tokenizing data. C error: Expected 8 fields in line 8, saw 10 完整解决方案

qq_41905413的博客

04-01

5604

ParserError: Error tokenizing data. C error: Expected 8 fields in line 8, saw 10 作者注：建议你先耐心阅读完此内容，然后参考解法对应修改；如果您只想知道具体修改内容可对比1.2节和第3部分内容直接修改程序。文章目录1、错误1.1、报错内容截图1.2 原代码[1]^{[1]}[1]2、分析3、附正确程序： 1、错误 1.1、报错内容截图 1.2 原代码[1]^{[1]}[1] import pandas as pd fro

解决ParserError: Error tokenizing data. C error: Expected 2 fields in line 53, saw 3

牛肉胡辣汤

10-14

4148

首先，我们需要检查CSV文件的内容，特别是第53行的数据。这个错误通常出现在使用Pandas或其他数据处理库读取CSV文件时，表示在第53行发现了3个字段，而期望的是2个字段。如果CSV文件中的字段分隔符不是逗号，我们需要在读取文件时指定正确的分隔符。在数据处理和分析的过程中，我们经常会遇到各种数据格式的文件，例如CSV、Excel等。然而，有时候在读取这些文件时，我们可能会遇到一些错误，其中一个常见的错误就是。如果只有少数几行数据格式错误，我们可以尝试跳过这些错误行，继续读取后面的数据。

Python 中 ParserError: Error Tokenizing Data C Error 错误

迹忆客

01-20

4721

如前所述，当您的 Python 程序解析 CSV 数据但遇到无效值、空值、未填充列等错误时，会发生 ParserError: Error tokenizing data. C error 错误。假设我们在 data.csv 文件中有这个数据，我们正在使用它在 pandas 的帮助下读取，尽管它有一个错误。

解决ParserError: Error tokenizing data. C error: Expected 210 fields in line 4, saw 281

qq_41200881的博客

07-05

2万+

我在用pandas读取csv文件时出现以下报错：看这个报错信息意思应该是：它是按照第0行的列长度来读取，然后后面某些行的列长度超出了就会出现报错，如上报错截图，需要210列，但是line4有281列，超出了。然后我百度后解决方法基本都是在read_csv()中添加error_bad_lines=False，但是这个只是把超出210列的行给删了。但是我想保留所有数据，然后又进行长时间的查询，最后拼凑后形成如下解决方式： data=[] with open('false8.csv', 'r'

ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file

TZmin的博客

05-25

1万+

报错：ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file 在使用pandas读取CSV文件的时候，报了上述错误，这是缓冲区溢出错误，造成这种错误的原因是CSV文件中每行使用了 \r ,也就是回车符。解决方案就是给 read_csv 添加参数 line...

pandas读CSV错误：ParserError: Error tokenizing data. C error: Expected 2 fields in line **

MurphyStar的博客

06-06

1234

用pandas读取CSV文件时报错，因为读取的是CSV文件，分隔默认采用的是逗号，该错误的可能原因为读取的数据中某一项包含两个字段，即值内可能包含两个逗号。

pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string

David_house的博客

03-23

1918

用pd.read_csv读取csv文件的时候报错了，后来百度说是csv文件里面的数据有问题，但是我这csv文件几百万行数据我也不能一个一个查看订正，经过几番尝试之后，找到一个解决方案。这个属性的意思是跳过超出header字段的行，相当于忽略有额外错误信息的行。

ParserError: Error tokenizing data. Ubuntu Pandas 读取 csv 时报错

qq_39002219的博客

04-13

557

Pandas 读取csv 抱如下错误：解析错误，查看网上是这样说的csv文件默认的是以逗号为分隔符，但是中文中逗号的使用率很高，爬取中文数据时就容易造成混淆，所以使用pandas写入csv时可以设置参数 sep=’\t’ ，即以tab为分隔符写入。毕竟tab在中文习惯里用的很少嘛。那这样在后面读取csv进行数据处理时，一定记得加上一个参数delimiter：然后就可以很快解决问题了(^-^)还有...

[linux] 解决ParserError: Error tokenizing data. C error: Expected 210 fields in line 4, saw 281

心宝的博客

12-28

787

在read_csv()中添加error_bad_lines=False，把超出xx列的行给删了。

Error tokenizing data. C error: Expected 6 fields in line 28790, saw 7

weixin_43718742的博客

12-06

2721

Error tokenizing data Pandas error C error: Expected Fields read_table read_csv 错误标记数据，C错误

pandas读取csv处理时报错：ParserError: Error tokenizing data. C error: Expected 1 fields in line 29, saw 2

热门推荐

yj928674542的博客

07-21

10万+

csv文件默认的是以逗号为分隔符，但是中文中逗号的使用率很高，爬取中文数据室就容易造成混淆，所以使用pandas写入csv时可以设置参数 sep=’\t’ ，即以tab为分隔符写入。毕竟tab在中文习惯里用的很少嘛。那这样在后面读取csv进行数据处理时，一定记得加上一个参数delimiter：delimiter="\t" #这样读入： df=pd.read_csv('path',delimite

Python Pandas Error tokenizing data

weixin_43725886的博客

10-23

403

Python Pandas Error tokenizing data pandas.parser.CParserError: Error tokenizing data. C error: Expected 2 fields in line 3, saw 12 的解决办法见：https://stackoverflow.com/q/18039057/12260382 ...

解决Pandas读取CSV错误 Error tokenizing data. C error: Expected * fields in line *, saw *

wwang314159的博客

08-14

8829

原因就是最后一行的列数多了一列。

[946]pandas.errors.ParserError: Error tokenizing data

周小董

02-28

627

pandas.errors.ParserError: Error tokenizing data mydf = pd.read_csv(filename, encoding=‘utf-8’, error_bad_lines=False) #加上error_bad_lines=False

pandas.errors.ParserError: Error tokenizing data

qq_41663800的博客

08-16

1215

mydf = pd.read_csv(filename, encoding='utf-8', error_bad_lines=False) #加上error_bad_lines=False

pandas 读csv文件，报错：ParserError：Error tokenizing data.

weixin_42764391的博客

08-15

3464

pandas 读csv文件，报错： ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file. 解决方法1：如果使用python及其大文件，可以使用 engine=‘python’ 解决方法2：原因是pandas用作行终止符的数据中有一些回车符“\ r...

python error tokenizing data_python 问题杂烩

weixin_31170085的博客

02-19

1699

python 问题杂烩python problem cookbookParserError: Error tokenizing data. C error: Calling read(nbytes) on source failed. Try engine='python'.pandas 读取文件时报如上错误，是因为输入文件的路径是文件夹路径，而不是文件本身。使用 pandas 将数据框的 1 列...

ParserError: Error tokenizing data. C error: Expected 17 fields in line 1787, saw 19

最新发布

06-18

### 解决方案分析在处理 `ParserError: Error tokenizing data. C error: Expected 17 fields in line 1787, saw 19` 错误时，问题通常出现在数据文件的格式或内容上。以下是可能的原因及解决方案： #### 1. 数据文件中存在不一致的分隔符如果 CSV 文件中的某些行包含额外的逗号或其他分隔符，会导致解析器期望的字段数与实际字段数不匹配。可以通过以下方法解决： - 使用 `error_bad_lines=False` 参数跳过有问题的行[^2]。 - 示例代码如下： ```python import pandas as pd df = pd.read_csv('data.csv', error_bad_lines=False, warn_bad_lines=True) ``` #### 2. 数据文件中存在嵌套引号或转义字符某些情况下，CSV 文件中的文本字段可能包含未正确转义的引号或逗号，导致解析错误。可以尝试以下方法： - 使用 `quotechar` 参数指定引用字符[^3]。 - 示例代码如下： ```python df = pd.read_csv('data.csv', quotechar='"', escapechar='\\') ``` #### 3. 数据文件编码问题如果文件编码与 Pandas 默认编码不匹配，也可能引发解析错误。可以尝试以下方法： - 明确指定文件编码为 `utf-8-sig` 或其他适用的编码[^3]。 - 示例代码如下： ```python df = pd.read_csv('data.csv', encoding='utf-8-sig') ``` #### 4. 手动预处理数据文件如果上述方法仍无法解决问题，可以手动预处理数据文件以确保一致性。例如： - 使用 Python 的内置文件操作读取并清理数据。 - 示例代码如下： ```python data = [] with open('data.csv', 'r', encoding='utf-8-sig') as f: for line in f: # 去除多余的空格和换行符 cleaned_line = line.strip().split(',') data.append(cleaned_line) # 将清理后的数据转换为 DataFrame df = pd.DataFrame(data[1:], columns=data[0]) ``` #### 5. 调整 Pandas 的解析参数 Pandas 提供了多个参数用于调整 CSV 文件的解析行为。例如： - 使用 `skiprows` 参数跳过异常行[^1]。 - 使用 `on_bad_lines` 参数（适用于 Pandas 1.3+）处理异常行[^2]。 - 示例代码如下： ```python df = pd.read_csv('data.csv', on_bad_lines='skip') ``` --- ### 总结通过以上方法可以有效解决 `ParserError: Error tokenizing data. C error: Expected 17 fields in line 1787, saw 19` 错误。具体选择哪种方法取决于数据文件的具体问题和业务需求。 ---