Python_pandas读取数据踩坑记录

最新推荐文章于 2023-07-01 16:23:45 发布

原创

最新推荐文章于 2023-07-01 16:23:45 发布 · 1.8k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#Python #Pandas

本文记录了在使用Python pandas读取CSV数据时遇到的两个问题：1. CSV文件编码错误，尝试了多种编码方式，如'gbk'、'utf-8'等，甚至通过修改文件编码解决；2. DataFrame中日期列未按日期正确排序，通过了解read_csv的parse_dates参数，如parse_dates、infer_datetime_format、keep_date_col等进行调整。

以下是我在清洗数据时，在读取数据这一最初步骤上踩到的坑。

1.CSV文件编码报错

import pandas as pd
RawData = pd.read_csv('C:/Users/me/Desktop/test.csv')

报错内容如：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 38: illegal multibyte sequence

解决方法：
（1）加入encoding=’gbk‘

import pandas as pd
RawData = pd.read_csv('C:/Users/me/Desktop/test.csv',encoding='gbk')

不行的话就几种编码方式各种试：utf-8 / gb2312 / gb18030 / ISO-8859-1等。

（2）直接修改csv文件的编码方式
Mac系统重新保存的时候可以选择编码方式为utf-8的；
Win系统需要用记事本方式打开再重新保存就可以选择编码方式。

2.读入的DataFrame无法正确按日期排序

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蓝皮鼠乱记

关注关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【python】pandas数据输出为xls时报engine不对怎么办？

每日出拳老爷子的博客

01-03

1725

原本用的好好的代码，设计pd.to_excel将df内容输出到xls后缀的excel，结果最近升级过pandas包后就报错说没有正确的引擎，要我装xlwt，结果装了之后指定引擎为xlwt又报错说引擎名称不存在。分析下来，就是因为新版的pandas不支持xlwt了，所以也就无法直接写xls后缀的excel了。所以，最简单的解决办法还是降级pandas，降级到相应的依赖package也支持写xls为止。感觉就是环境包的问题，但怎么导入新包都没有用。于是退回原来的pandas试了试，发现又成了。

Python-pandas针对不同数据帧大小的不同操作的Benchmark

08-10

pandas针对不同数据帧大小的不同操作的Benchmark

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

酒酿圆子C 2020.12.07
请问一下为什么pandas读不了1000这个数据

数据分析处理库Pandas部分（一）数据读取

哇哈哈叁肆

06-05

1308

import pandas """ .read_csv读取csv文件文件名用引号括起来""" food_info = pandas.read_csv("food_info.csv") print(type(food_info)) #打印整个文件属性类型 print(food_info.dtypes) #打印文件中分类名字的属性类型 #****************************...

pandas读取CSV文件报错：编码错误，无法读取

小蜗牛的博客

06-12

6091

错误：UnicodeDecodeError: 'gb18030'/utf-8 codec can't decode byte 0x80 in position 16: illegal multibyte sequence 解决：pd.read_csv('ene_train.csv',encoding = 'utf-8')去掉encoding，pd.read_csv('ene_train.csv')也不行，用记事本打开发现文件是乱码，此时选择“文件”---“另存为”---编码改为utf-8，如图在代

pandas读、写csv文件错误解决办法（重要）

热门推荐

bluewater的专栏

04-09

3万+

实践解决办法--------------------------------------------------------------------- 用pandas读取csv文件特别说明： 1、文件名称前加r解决文件名（含路径中特殊符号）字符串转义问题；如：pd.read_csv(r'd:\bujiao.csv')，bujiao.csv文件中无中文可正常读出。 2、encoding=...

【Python】【Pandas 】【read_csv()】Pandas库的read_csv()方法的使用，处理：None,NULL

望仔的博客

07-01

1496

对None的列进行处理，将空值转化成字符’',或是其他不影响的字符，再使用 dropna()，即可。

Python 读取数据（Pandas读取CSV, python读取jpg图片的踩坑经验）

qq_41025410的博客

05-11

1506

读取jpg图片读取jpg图片的时候，python的路径会变化 ‘./dataset/data\18999.jpg’ == 注意：最后的是 \而不是 /== pandas读取csv的绝对路径和相对路径绝对路径： Path_csv ="C:\\Users\\lenovo\\Desktop\\usyd\\train.csv" train_df2 =pd.read_csv(Path_csv) 相对路径： ./代表当前文件夹 train_df2 =pd.read_csv('./train.csv') pand

python爬的csv文件在哪里_Python爬虫之踩坑记录--csv文件新增列

weixin_39627751的博客

12-28

807

起因：爬取拉勾网职位信息模块的技术栈，实现把技术栈爬回之前的csv文件(以新增列的方式)具体实现过程如下：使用Pandas的read_csv方法读取csv文件里面的PositionId，访问对应的网址设置headers、cookies、time.sleep、try-except，防止反爬机制利用BeautifulSoup方法爬取对应源码并用html.parser实现转化成Html5格式使用正则表达...

python解决pandas处理缺失值为空字符串的问题

12-24

踩坑记录：用pandas来做csv的缺失值处理时候发现奇怪BUG，就是excel打开csv文件，明明有的格子没有任何东西，当然，我就想到用pandas的dropna()或者fillna()来处理缺失值。但是pandas读取csv文件后发现那个空的...

Pandas中Initializing from file failed及UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in posit

小白白的博客

12-04

1134

（作者：陈玓玏）在使用pandas的read_csv读取文件时，如果你读取文件的路径包含中文，就会出现Initializing from file failed的错误。这时候我们可以做一下修改： import pandas as pd df = pd.read_csv(path,encoding='gbk') 修改为： file = open(path) df = pd.read_csv(fi...

Python深度学习入门笔记（一）：使用Pandas从CSV格式的文件读取数据

小张小张啥也不会

10-23

1206

首先学习的是如何使用pandas进行初始数据的读取和初步处理，主要处理对象为.csv格式的数据文件，读取之后的格式为DataFrame

pandas读取数据文件，解决行/列显示不全

yinjieer379的博客

11-05

4989

pandas读取数据文件，解决行/列显示不全 pd.set_option()进行设置 #显示全部列 pd.set_option('display.max_columns', None) #显示全部行 pd.set_option('display.max_row', None) #设置数据的显示长度（解决自动换行） pd.set_option('display.width', None) 示例：原始显示为：设置后： ...

numpy.exp函数出现 'Float' object has no attribute 'exp'的情况

u013323018的博客

05-31

1万+

问题描述：在python是使用自定义sigmoid函数的时候，输入X为matrix，会出现'Float' object has no attribute 'exp'的情况。 def sigmoid(inp): return 1.0/(1 + np.exp(-inp)) 发现用手动生成matrix数据带入这个函数也没问题，然后通过查找numpy.mat函数发现 numpy.mat...

数据分析(六)之pandas学习【Series创建、切片、索引和读取外部数据】

捌椒的博客

12-15

1803

数据分析学习线路图为什么要学习pandas? 那么问题来了：numpy已经能够帮助我们处理数据，能够结合matplotlib解决我们数据分析的问题，那么pandas学习的目的在什么地方呢？ numpy能够帮我们处理处理数值型数据，但是这还不够很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等比如：我们通过爬虫获取到了存储在数据库中的数据比如：之前youtube的例子中除了数值之外还有国家的信息，视频的分类(tag)信息，标题信息等所以， numpy能够帮助我们处理数值，但是pand

pandas parse_data出现异常时，自动跳过

vincent_duan的专栏

06-29

953

当处理原始数据时，出现下面的错误： id,name,date 0,a,2020/01/01 0,b,2020/01/01 0,c,2020/01/01 0,d,2020/01/01 0,e,2020/01/01 0,f,9999/01/01 用pandas进行处理： data = pandas.read_csv(file, sep=";", encoding="ISO-8859-1", parse_dates=["date"], date_parser=lambda x: pandas.to_datet

pandas读取csv常见错误及解决方法

dlhlSC的博客

07-02

5132

1）错误提示：pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 121, saw 2 解决方法： import pandas as pd data = pd.read_csv(inputfile, encoding='utf-8',header=None,sep = '...

python numpy读取数据_如何在python中使用numpy或pandas只读取两行之间的数据？

weixin_39849942的博客

11-24

316

我有这样一个数据文件：# column 1 is the angle of incidence (degrees)# column 2 is the wavelength (microns)# column 3 is the transmission probability# column 4 is the reflection probability14.2000 0.300000 0...

python pandas 排序_python pandas排序问题

weixin_39904116的博客

12-04

1144

In [48]: import pandas as pd...:...: # 读取文件...: df = pd.read_excel('data.xlsx')...:...: # 按照city进行分组，并按照date升序排序...: new_df = df.sort_values(['date']).groupby('city')...:...: # 取出结果中的每一行拼接成新的dataframe...

Pandas 那些年踩过的坑

iizhuzhu的博客

11-02

1420

Table of Contents Pandas 那些年踩过的坑——by 江凯1. Pandas IO中的坑1.1 解决读的坑，让pandas读文件内存占用减小 80%1.2 解决写的坑，让磁盘空间节约60%1.3 解决写的坑，避免挖个坑1.4 python2：加上encoding，读写好习惯2. DataFrame 链式索引的坑2.1 解决：SettingWithCopyWarning:2.2...

如何使用pandas读取mysql数据库

最新发布

03-16

<think>好的，用户想了解如何使用pandas读取MySQL数据库。首先，我需要回忆一下pandas的相关方法。记得pandas有一个read_sql的函数，可以用来从数据库读取数据，但需要配合数据库连接库使用。接下来，用户可能需要具体的步骤，所以应该分步骤说明。首先，需要安装必要的库，比如pandas和mysql-connector-python。然后，建立数据库连接，这里可能会提到不同的驱动，比如PyMySQL或者mysql-connector，用户可能需要示例代码。然后，可能需要演示如何编写连接字符串，使用create_engine从SQLAlchemy。这里要注意格式，比如mysql+mysqlconnector://用户名:密码@主机/数据库名。用户可能会遇到驱动问题，需要提醒他们根据实际情况选择驱动。接下来，使用pd.read_sql_query或read_sql来执行SQL查询，或者直接读取整个表。这里需要区分两者的使用场景，比如查询特定数据还是整个表。还要提到关闭连接的重要性，虽然使用with语句可能自动处理，但最好还是提醒用户手动关闭，避免资源泄露。另外，考虑用户可能遇到的常见问题，比如字符集设置，端口指定，或者SSL连接。这些可以在注意事项里提到，帮助用户避免踩坑。最后，给出完整的示例代码，从导入库到读取数据，再到关闭连接，确保用户能一步步跟着操作。同时，提醒他们替换实际的数据库信息，保证安全。需要检查是否有遗漏的步骤，比如安装库的部分是否全面，连接字符串是否正确，以及异常处理是否需要提及。不过根据用户的问题，可能不需要太深入的错误处理，但至少提到常见问题。总结下来，回答的结构应该是先安装依赖，然后建立连接，执行查询，处理结果，关闭连接，最后注意事项和示例代码。确保步骤清晰，代码正确，用户能顺利操作。</think>以下是使用pandas读取MySQL数据库的详细步骤： --- ### **1. 安装依赖库** ```bash # 安装pandas和MySQL驱动（任选其一） pip install pandas sqlalchemy mysql-connector-python # 官方驱动 # 或 pip install pandas sqlalchemy pymysql # 第三方PyMySQL驱动 ``` --- ### **2. 建立数据库连接** 使用`create_engine`创建连接对象（需替换实际参数）： ```python from sqlalchemy import create_engine # 格式：mysql+驱动://用户名:密码@主机地址:端口/数据库名 engine = create_engine('mysql+mysqlconnector://root:password@localhost:3306/mydatabase') ``` --- ### **3. 执行SQL查询** #### 方式一：读取整个表 ```python import pandas as pd # 读取整张表 df = pd.read_sql_table('table_name', con=engine) ``` #### 方式二：自定义SQL查询 ```python # 执行任意SQL语句 query = "SELECT * FROM table_name WHERE column > 100" df = pd.read_sql_query(query, con=engine) ``` --- ### **4. 处理查询结果** ```python # 查看前5行数据 print(df.head()) # 保存为CSV文件 df.to_csv('output.csv', index=False) ``` --- ### **5. 关闭连接** ```python engine.dispose() # 释放数据库连接 ``` --- ### **注意事项** 1. 字符集问题：若含中文，连接字符串添加`?charset=utf8mb4` ```python engine = create_engine('mysql+pymysql://user:pass@host/db?charset=utf8mb4') ``` 2. 指定端口：非默认端口需在连接字符串中标注 `@host:port` 3. SSL连接：需添加SSL证书参数（生产环境常用） --- ### **完整示例代码** ```python import pandas as pd from sqlalchemy import create_engine # 创建连接 engine = create_engine('mysql+pymysql://user:password@localhost/mydb') # 执行SQL查询 query = ''' SELECT date, sales, product FROM sales_records WHERE date >= '2023-01-01' ''' df = pd.read_sql_query(query, engine) # 处理数据 print(f"共读取{len(df)}条记录") print(df.describe()) # 关闭连接 engine.dispose() ```