Python笔记-新学知识(混乱无逻辑,持续更新)

这篇笔记详细介绍了Python DataFrame的各种操作,包括统计缺失值、删除列和含有缺失值的行、组合字符串列、设置和重置索引、频率分布分析、字符串匹配、数据重新采样、列组合、列联表生成、列重命名以及转换数据类型为category等实用技巧。

相关解释:

df = DataFrame

1. 统计数据框中缺失值的数量

df.isnull().sum()

2. 删除数据框中的某列

df.drop(['name1', 'name2'], axis='columns', inplace=True)

3. 删除有缺失值的行

dfi.dropna(subset=['name1'], inplace=True)

4. 组合两个字符串列

combined = df.name1.str.cat(df.name2, sep = ' ')

5. 设置索引与重置索引

#将索引设置为时间索引
df.set_index('stop_datetime', inplace=True)
#重置索引为数字索引
df.reset_index(inplace=True)

6. 统计某列中各个值出现的频次与频率分布

# 统计频次分布
print(df.name1.value_counts())
# 统计频率分布
print(df.name1.value_counts(normalize = True))

7. 查询某个字符串知否在某个字符串列中出现,并输出为布尔值列

df['name1'] = ri.name2.str.contains('XXXXX', na=False)

8. 对数据重新采样,改变采样的频率(有时间索引的数据)

df.name1.resample("A")

9.  组合多列,要求行数相当?有共同索引?

name1 = pd.concat([name2,name3], axis= "columns")

10. 生产列联表

crosstab = pd.crosstab(df.col1,df,col2)

11. 重命名列中的值

#先创建一个各值对应修改的值的字典
mapping = {'0-15 Min':8,'16-30 Min':23,'30+ Min':45}
#创建一个新列,或覆盖
df['stop_minutes'] = df.stop_duration.map(mapping)

12. 转变列的数据类型为category,并按序排列

# 创建一个有序(自己认为)列表
cats = ['good', 'bad', 'worse']
# 将rating转变成category,且按cats的顺序排序
df['rating'] = df.rating.astype('category', ordered=True, categories=cats)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值