pandas的用法

s6k1y1

于 2023-04-05 10:50:21 发布

阅读量108

点赞数

文章标签： pandas python 数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/s6k1y1/article/details/129967315

版权

本文详细介绍了pandas在数据处理中的应用，包括导入数据、查看数据信息、数据清洗、数据预处理、数据提取和数据筛选操作，如空值处理、列名修改、数据格式转换、数据合并、条件分组等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、生成数据表

1、首先导入pandas和numpy库

2.导入CSV文件

二、数据表的信息查看

1.维度查看：

2.数据表基本信息（维度，列名称，数据格式，所占空间等）：

3.每一列数据的格式：

4.某一列格式：

5.空值：

6.查看某一列空值：

7.查看某一列的唯一值：

8.查看数据表的值：

9.查看列名称：

10.查看前5行数据、后五行数据:

三、数据表清洗

1.用数字0填充空值：

yy.fillna(value=0)

2.使用列[‘名称’]的均值对NA进行填充：

yy[‘名称’].fillna(yy['名称'].mean())

3.清除某字段的字符空格：

yy['名称']=yy['名称'].map(str.strip)

4.大小写转换：

yy['名称']=yy['名称'].str.lower()

5.更改数据格式：

yy['名称'].astype('int')

6.更改列名称：

yy.rename(columns={'旧名称': '新名称})

7、删除后出现的重复值：

yy['名称'].drop_duplicates()

8.删除先出现的重复值：

yy['名称'].drop_duplicates(keep='last')

9.数据替换：

yy['名称'].replace('旧', '新')

四、数据预处理

1.数据表合并

1.1 merge

1.2 append

1.3 join

1.4 concat

2.设置索引列：

3.按照特定列的值排序：

4.按照索引列排序：

5.如果prince列的值>3000，group列显示high，否者显示low：

6.对复合多个条件的数据进行分组标记

df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1

五、数据提取

1.按索引提取单行数值：

df_inner.loc[3]

2.按索引提取区域行数值：

df_inner.iloc[0:5]

3.重设索引

df_inner.reset_index()

4.设置日期为索引

df_inner=df_inner.set_index('date')

六数据筛选

1.使用“&”进行筛选

df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]

2.使用“|”，进行筛选

df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])

3.使用“！=”，进行筛选

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])

4.对筛选后的数据按city列进行计数

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()

5.使用query函数进行筛选

df_inner.query('city == ["beijing", "shanghai"]')

6.对筛选后的结果按prince进行求和

df_inner.query('city == ["beijing", "shanghai"]').price.sum()

博客等级

码龄2年

12
原创

0
点赞

4
收藏

3
粉丝

关注

私信

热门文章

最新评论

安装pandas和sklearn
优快云-Ada助手: NLP和Vision两个领域都越来越朝着超大模型的趋势去，你怎么看？
安装pandas和sklearn
优快云-Ada助手: NLP和Vision两个领域都越来越朝着超大模型的趋势去，你怎么看？
线性回归-波士顿房价预测
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)文章不宜太短。
线性回归-波士顿房价预测
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)文章不宜太短；(3)增加条理清晰的目录。
读入CSV数据
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)增加除了各种控件外，文章正文的字数；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。