python pandas 数据分析笔记

本文详细介绍了使用Python的Pandas库进行数据导入、展示、清洗和保存的方法。涵盖了txt、xlsx和csv等常见数据格式的读取技巧,展示了如何利用head、shape、value_counts等函数查看数据概览,以及drop、fillna等函数进行数据清洗。同时,提供了数据保存的具体步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python pandas 使用笔记

  1. 数据导入
  2. 数据展示
  3. 数据清洗
  4. 数据保存

数据导入
常见的数据保存格式:txt,xlsx,csv

import pandas as pd
#读txt文件
df = pd.read_table('input_file') 
#读csv文件
df = pd.read_csv('input_file')
#读xlsx文件
df = pd.read_excel('input_file','Sheet1') 

分隔符:read_table使用\t分隔符,read_csv使用,分隔符,sep= 参数可以指定以哪种分隔符去处理文件
表头:header=None使用默认的表头,names=[]指定表头
索引列:index_col=指定索引列

数据展示

df.head() #展示前5行数据
df.shape #展示数据的维度 如 n rows x m columns
df.reshape((i,j)) #将DataFrame的形状改变,接受一个元组做参数
df.columns #展示表头,
df['label'].value_counts() #统计一列的频数
df['label'] #展示一列数据
df.loc['row'] #展示一行数据
df['label'] = value #给一列赋值
df[df['three'] > 5]  #按照bool值进行索引
#loc使用行、列标签名选取 obj.loc[['row_label',],['columns_label',]]
df.loc[label]
df.loc['Colorado', ['two', 'three']] 
#iloc使用行、列数字索引选取,obj.iloc[[1,],[1,]]
df.iloc[2, [3, 0, 1]]

数据清洗

df.drop([],axis=1) #按照列标签删除列
df.drop([]) #默认按照行标签删除行
df.isnull().any() #显示一列是否有空值
df[["",""]].fillna() #将列中空值填充,
df[["",""]].fillna(‘NA’) #填充NA
df[["",""]].fillna(0) #填充0
df[["",""]].fillna(method='ffill') #向前填充
df[["",""]].fillna(method='bfill') #向后填充
用均值填充
value_mean = df['able'].mean()
lable = df['lable'].fillna(value_mean)
df['lable'] = lable

数据保存

#不写入行索引,不写入表头,并按`,`分隔
data.to_csv('output_file', index=False, header=False)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

桂渊泉树

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值