Python笔记-新学知识（混乱无逻辑，持续更新）

最新推荐文章于 2026-01-01 13:05:56 发布

原创最新推荐文章于 2026-01-01 13:05:56 发布 · 178 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

Python 专栏收录该内容

7 篇文章

订阅专栏

这篇笔记详细介绍了Python DataFrame的各种操作，包括统计缺失值、删除列和含有缺失值的行、组合字符串列、设置和重置索引、频率分布分析、字符串匹配、数据重新采样、列组合、列联表生成、列重命名以及转换数据类型为category等实用技巧。

相关解释：

df = DataFrame

1. 统计数据框中缺失值的数量

df.isnull().sum()

2. 删除数据框中的某列

df.drop(['name1', 'name2'], axis='columns', inplace=True)

3. 删除有缺失值的行

dfi.dropna(subset=['name1'], inplace=True)

4. 组合两个字符串列

combined = df.name1.str.cat(df.name2, sep = ' ')

5. 设置索引与重置索引

#将索引设置为时间索引
df.set_index('stop_datetime', inplace=True)
#重置索引为数字索引
df.reset_index(inplace=True)

6. 统计某列中各个值出现的频次与频率分布

# 统计频次分布
print(df.name1.value_counts())
# 统计频率分布
print(df.name1.value_counts(normalize = True))

7. 查询某个字符串知否在某个字符串列中出现，并输出为布尔值列

df['name1'] = ri.name2.str.contains('XXXXX', na=False)

8. 对数据重新采样，改变采样的频率（有时间索引的数据）

df.name1.resample("A")

9. 组合多列，要求行数相当？有共同索引？

name1 = pd.concat([name2,name3], axis= "columns")

10. 生产列联表

crosstab = pd.crosstab(df.col1,df,col2)

11. 重命名列中的值

#先创建一个各值对应修改的值的字典
mapping = {'0-15 Min':8,'16-30 Min':23,'30+ Min':45}
#创建一个新列，或覆盖
df['stop_minutes'] = df.stop_duration.map(mapping)

12. 转变列的数据类型为category，并按序排列

# 创建一个有序（自己认为）列表
cats = ['good', 'bad', 'worse']
# 将rating转变成category,且按cats的顺序排序
df['rating'] = df.rating.astype('category', ordered=True, categories=cats)