pandas 数据处理实例

最新推荐文章于 2024-07-05 19:57:36 发布

weixin_33709364

最新推荐文章于 2024-07-05 19:57:36 发布

阅读量249

点赞数

文章标签： python

本文介绍了一种处理CSV文件的方法，包括读取、预处理、数据填充、切片访问及统计分析等步骤。通过Python的pandas库实现，具体涉及日期时间格式转换、空值处理、切片操作和统计计算等功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

描述：行标签为日期，列标签为时间，表哥的值是 float 的数值
# 一、读取 csv 文件
df=pd.read_csv("delay_3.csv",encoding = "utf-8")
# 二、默认读取是行索引是 0 开始计数的，datestr 被作为文本读成了单元格数据，将datestr 转换成时间，并建立索引
# 2.1 要把 datestr 列转换成时间格式
df['datestr'] = pd.to_datetime(df['datestr'])
# 2.2 通过 set_index 重新设置新的列
df.set_index("datestr", inplace=True)
# 三、数据预处理，因为数据本身存在很多空白数据，空白数据是 - （减号）
# 3.1 转换数据为数字类型，转换错误的数据，自动填充为 NAN
df=df.apply(pd.to_numeric, errors='coerce')
# 3.2 通过填充命令将数据填充填充的规则是按照前一行，同一列进行填充
#print df.isnull().sum()
df=df.fillna(method='ffill')‘
# 查看下为仍然为 null 的数据数量
#print df.isnull().sum()
#四、通过切片进行访问，切出这些天，每天的这些时刻的数据
df['2018-01-08':'2018-01-15','06:00':'20:00']
#五、分行和分列进行聚集操作
# 5.1 按列（时段）聚集
df.mean()
# 5.2 按日期（行）聚集
df_new=df.T
df_new.mean()
# 5.3 所有的数据取一个平均值
df.mean().mean()