相关解释:
df = DataFrame
1. 统计数据框中缺失值的数量
df.isnull().sum()
2. 删除数据框中的某列
df.drop(['name1', 'name2'], axis='columns', inplace=True)
3. 删除有缺失值的行
dfi.dropna(subset=['name1'], inplace=True)
4. 组合两个字符串列
combined = df.name1.str.cat(df.name2, sep = ' ')
5. 设置索引与重置索引
#将索引设置为时间索引
df.set_index('stop_datetime', inplace=True)
#重置索引为数字索引
df.reset_index(inplace=True)
6. 统计某列中各个值出现的频次与频率分布
# 统计频次分布
print(df.name1.value_counts())
# 统计频率分布
print(df.name1.value_counts(normalize = True))
7. 查询某个字符串知否在某个字符串列中出现,并输出为布尔值列
df['name1'] = ri.name2.str.contains('XXXXX', na=False)
8. 对数据重新采样,改变采样的频率(有时间索引的数据)
df.name1.resample("A")
9. 组合多列,要求行数相当?有共同索引?
name1 = pd.concat([name2,name3], axis= "columns")
10. 生产列联表
crosstab = pd.crosstab(df.col1,df,col2)
11. 重命名列中的值
#先创建一个各值对应修改的值的字典
mapping = {'0-15 Min':8,'16-30 Min':23,'30+ Min':45}
#创建一个新列,或覆盖
df['stop_minutes'] = df.stop_duration.map(mapping)
12. 转变列的数据类型为category,并按序排列
# 创建一个有序(自己认为)列表
cats = ['good', 'bad', 'worse']
# 将rating转变成category,且按cats的顺序排序
df['rating'] = df.rating.astype('category', ordered=True, categories=cats)
这篇笔记详细介绍了Python DataFrame的各种操作,包括统计缺失值、删除列和含有缺失值的行、组合字符串列、设置和重置索引、频率分布分析、字符串匹配、数据重新采样、列组合、列联表生成、列重命名以及转换数据类型为category等实用技巧。
1663

被折叠的 条评论
为什么被折叠?



