pandas parse_data出现异常时，自动跳过

最新推荐文章于 2024-11-02 12:50:30 发布

原创最新推荐文章于 2024-11-02 12:50:30 发布 · 947 阅读

1 ·

CC 4.0 BY-SA版权

pandas 专栏收录该内容

3 篇文章

订阅专栏

本文介绍使用Pandas处理含有异常日期格式的CSV文件时遇到的问题及解决方法。通过调整日期解析器中errors参数的值，可以跳过或转换不符合规范的日期数据。

当处理原始数据时，出现下面的错误：

id,name,date
0,a,2020/01/01
0,b,2020/01/01
0,c,2020/01/01
0,d,2020/01/01
0,e,2020/01/01
0,f,9999/01/01

用pandas进行处理：

data = pandas.read_csv(file, sep=";", encoding="ISO-8859-1", parse_dates=["date"],  date_parser=lambda x: pandas.to_datetime(x, format="%d.%m.%Y"))

但是运行时报错，意思是out of bonds timestamp。

我们目前的做法是，需要跳过异常的行，

需要添加下面的行

date_parser=lambda x: pd.to_datetime(x, errors="coerce")

errors参数共有三种赋值，默认的值为‘raise’，出现不符合规范的解析时就会报错。

可以将errors参数赋值为‘coerce’，在解析的过程中将出错的时间格式设置为NaT。
如果不想处理错误的时间格式，可以将errors赋值为‘ignore’，这样就还是原来的格式。

errors{‘ignore’, ‘raise’, ‘coerce’}, default ‘raise’

If ‘raise’, then invalid parsing will raise an exception.
If ‘coerce’, then invalid parsing will be set as NaT.
If ‘ignore’, then invalid parsing will return the input.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

vincent_hahaha

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pandas

qq_45488501的博客

01-05

514

从数据读取、写入到清洗、分析，再到可视化，Pandas提供了丰富的工具和方法。在实际应用中，我们可以根据具体需求，灵活运用这些功能，解决各种复杂的问题。无论是在日常工作还是专业领域，掌握Pandas操作Excel的技能都能为我们带来巨大的帮助。Pandas是Python中用于数据处理和分析的核心库，在数据科学领域应用广泛。它提供了丰富的功能来处理Excel文件，无论是简单的数据处理，还是复杂的分析任务，都能游刃有余地完成。根据条件筛选数据，例如筛选出特定列值大于某个值的行。

pandas - parse-date

weixin_30565327的博客

08-25

413

1.pd.read_csv()函数中parse_dates()参数 boolean. True -> 解析索引 boolean. If True -> try parsing the index. 如果是true，那就把索引解析成日期转载于:https://www.cnblogs.com/hixiaowei/p/11407059.html...

参与评论您还未登录，请先登录后发表或查看评论

使用pandas读取csv时跳过错误行

weixin_48857697的博客

11-02

816

使用pandas读取csv时，可能有数据错误，可以跳过错误内容，继续读取！

panda读取文件时跳过存在错误行

喝醉酒的小白

02-28

3742

panda读取文件时跳过存在错误行

pandas读取⽂件的read_csv（）⽅法的parse_dates参数

PandaKongfu的专栏

05-06

3593

转自百度文库 parse_dates参数：将csv中的时间字符串转换成⽇期格式 TestTime.csv⽂件： "name","time","date" 'Bob',21:33:30,2019-10-10 'Jerry',21:30:15,2019-10-10 'Tom',21:25:30,2019-10-10 'Vince',21:20:10,2019-10-10 'Hank',21:40:15,2019-10-10 import pandas as pd (1)、 df=pd.

File "C:\Users\Acme\AppData\Local\Programs\Python\Python313\Lib\site-packages\pandas\core\arrays\datetimes.py", line 2398, in objects_to_datetime64 result, tz_parsed = tslib.array_to_datetime( ~~~~~~~~~~~~~~~~~~~~~~~^ data, ^^^^^ ...<4 lines>... creso=abbrev_to_npy_unit(out_unit), ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ ) ^ File "tslib.pyx", line 414, in pandas._libs.tslib.array_to_datetime File "tslib.pyx", line 596, in pandas._libs.tslib.array_to_datetime File "tslib.pyx", line 553, in pandas._libs.tslib.array_to_datetime File "conversion.pyx", line 641, in pandas._libs.tslibs.conversion.convert_str_to_tsobject File "parsing.pyx", line 336, in pandas._libs.tslibs.parsing.parse_datetime_string File "parsing.pyx", line 666, in pandas._libs.tslibs.parsing.dateutil_parse pandas._libs.tslibs.parsing.DateParseError: Unknown datetime string format, unable to parse: 时间, at position 0

05-06

可能的情况是数据中的某一列包含中文的列名，比如“时间”，而pandas在自动解析时误将其当作日期时间数据来处理，导致解析失败。比如，用户可能在使用pd.to_datetime()函数时，传入的数据中包含非日期时间字符串，...

c:\users\1\desktop\未命名1.py:52: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format. source_time = pd.to_datetime(main_damage_df.iloc[:, 0]) Traceback (most recent call last): File D:\anaconda3\Lib\site-packages\spyder_kernels\py3compat.py:356 in compat_exec exec(code, globals, locals) File c:\users\1\desktop\未命名1.py:81 main_damage, tower_damage = load_and_align_damage_data(damage_file, n_turbines, target_time) File c:\users\1\desktop\未命名1.py:52 in load_and_align_damage_data source_time = pd.to_datetime(main_damage_df.iloc[:, 0]) File D:\anaconda3\Lib\site-packages\pandas\core\tools\datetimes.py:1067 in to_datetime values = convert_listlike(arg._values, format) File D:\anaconda3\Lib\site-packages\pandas\core\tools\datetimes.py:435 in _convert_listlike_datetimes result, tz_parsed = objects_to_datetime64( File D:\anaconda3\Lib\site-packages\pandas\core\arrays\datetimes.py:2398 in objects_to_datetime64 result, tz_parsed = tslib.array_to_datetime( File tslib.pyx:414 in pandas._libs.tslib.array_to_datetime File tslib.pyx:596 in pandas._libs.tslib.array_to_datetime File tslib.pyx:553 in pandas._libs.tslib.array_to_datetime File conversion.pyx:641 in pandas._libs.tslibs.conversion.convert_str_to_tsobject File parsing.pyx:336 in pandas._libs.tslibs.parsing.parse_datetime_string File parsing.pyx:666 in pandas._libs.tslibs.parsing.dateutil_parse DateParseError: Unknown datetime string format, unable to parse: 时间(s), at position 0

07-17

因此，正确的做法应该是读取数据时跳过第一行，或者在读取后删除第一行。此外，用户可能在附件5-问题一答案表.xlsx中存在表头行，但代码中使用了`header=None`，导致表头被当作数据处理。需要确认该文件的结构，...

stock_data = pd.read_csv('stocks_data.csv', parse_dates=['eob']) stock_data['trade_time'] = pd.to_datetime(stock_data['eob'], utc=True) stock_data['trade_time'] = stock_data['trade_time'].dt.tz_localize(None) stock_data['trade_time'] = stock_data['trade_time'].dt.normalize()操作后数据有缺失怎么解决

最新发布

11-26

如果以上步骤仍然无法解决缺失问题，可能需要检查原始数据是否完整，或者是否存在其他列的数据缺失导致日期处理被跳过。最后，引用[4]提到Pandas时间处理模块构建了完整的时间数据处理体系，因此合理利用其方法...

生成完整的_parse_html_tables及其相关方法，合并出现问题

07-29

同时，我们也要注意在合并时可能出现的问题。根据之前的讨论，我们需要实现以下功能： 1. 解析HTML中的每个表格，提取表头和表格数据。 2. 处理表头的层级结构（合并单元格、跨行跨列等），生成平铺的列名（即...

File "main.py", line 103, in update_langs self.load_app_data() # --> Set app DataFrame list (for save) File "main.py", line 212, in load_app_data df = pd.read_csv(csv_file, dtype=str) File "/home/worker/.local/lib/python3.8/site-packages/pandas/io/parsers/readers.py", line 912, in read_csv return _read(filepath_or_buffer, kwds) File "/home/worker/.local/lib/python3.8/site-packages/pandas/io/parsers/readers.py", line 583, in _read return parser.read(nrows) File "/home/worker/.local/lib/python3.8/site-packages/pandas/io/parsers/readers.py", line 1704, in read ) = self._engine.read( # type: ignore[attr-defined] File "/home/worker/.local/lib/python3.8/site-packages/pandas/io/parsers/c_parser_wrapper.py", line 234, in read chunks = self._reader.read_low_memory(nrows) File "pandas/_libs/parsers.pyx", line 814, in pandas._libs.parsers.TextReader.read_low_memory File "pandas/_libs/parsers.pyx", line 875, in pandas._libs.parsers.TextReader._read_rows F

04-12

2. 跳过异常行（慎用）： ```python df = pd.read_csv('data.csv', on_bad_lines='skip') ``` 3. 指定列名避免自动推断： ```python cols = ['id','name','date'] df = pd.read_csv('data.csv', names=cols, header...

【Pandas】一文向您详细介绍 pd.read_csv()函数中 parse_dates 参数

创作高质量博文，分享知识，共同进步！

05-27

2400

🚀 揭秘Pandas中的时间魔法！🔮 📈 还在为CSV中的日期格式烦恼吗？Pandas的`pd.read_csv()`中的`parse_dates`参数是你的救星！从基础用法到高级技巧，本文带你一步步解锁日期处理的奥秘。🌟 创建CSV、🔍 初步解析、🚀 进阶应用，一应俱全。掌握这些，数据预处理将如丝般顺滑！#Pandas #parse_dates #CSV日期处理 #数据预处理

pandas pd.read_csv()函数中parse_dates()参数

MR_jie1的博客

03-11

7073

parse_dates : boolean or list of ints or names or list of lists or dict, default False boolean. If True -&gt; try parsing the index. list of ints or names. e.g. If [1, 2, 3] -&gt; try parsing columns ...

pandas parse_dates参数

hooyying的博客

02-13

1万+

parse_dates 表示将某一列设置为时间类型 df = pd.read_csv('comptagevelo20152.csv',\ sep=',',index_col= 'Date',parse_dates=['Date']) parse_dates将Date列设置为时间类型 index_col将Date列设置为索引 df.index DatetimeIndex([‘2015-01-01’, ‘2015-02-01’, ‘2015-03-01’, ‘2015-

Python的pandas读取文件跳过前几行

dugushangliang的博客

06-03

2万+

python中pd读取文件parse_dates和date_parser参数运用