数据分析---pandas的高级操作

原创已于 2022-03-15 15:58:00 修改 · 4.9k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据分析 #数据挖掘

于 2022-03-15 14:28:23 首次发布

数据分析专栏收录该内容

12 篇文章

订阅专栏

本文介绍了Pandas中的替换与映射操作，包括replace函数的应用、Series和DataFrame的区别，以及如何使用map和transform进行数据处理。此外，涵盖数据分类、分组聚合、透视表与交叉表的实战案例，帮助读者掌握数据操作和分析的高级技能。

一、替换操作(replace)

替换操作可以同步作用与Series和DataFrame中

df.replace(to_replace , value , replace , ...) #将所有to_replace 替换成value

df.replace(to_replace={4:5},value='five' ) #将指定列的元素进行替换，re_place{列索引：被替换的值}

df.replace(to_replace={1:'one'} ) #字典形式的替换，将1替换成‘One’

二、映射操作(map)

概念：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定（给一个元素值提供不同的表现形式）——字典形式的映射关系表
创建一个df，两列分别是姓名和薪资，然后给其名字起对应的英文名

Series_data. map( dic) #只能给Series数据进行映射(dic)

map只能是Series的方法，只能被Series调用

三、运算工具(map)

需求：超过3000部分的钱需要缴纳50%的税，计算每个人的税后薪资

四、排序实现的随机抽样

take([隐式索引]，axis=1) #将原始数据按隐式索引打乱（列打乱）

np.random.permutation(n) #产生0~n的随机数

1. 将原始数据的列打乱（axis=1）

2. 在此基础上将原始数据的行进行打乱（axis=0）

3. 随机取样

五、数据的分类处理

数据分类处理的核心
groupby(by , )函数
groups属性查看分组情况

原始数据：

1. 对原始数据的水果进行分类并查看分组情况

2. 为什么要进行分组呢？为了进行聚合【分组聚合】——计算每一种说过的平均价格

3. 将计算出的每种颜色的平均重量汇总到源数据，需要用到映射——map(dic),字典数据。

六、高级数据聚合

当我们分好组之后，想进行一个聚合操作，但是这个聚合操作并没有被pandas封装，那么就需要我们自己封装一个聚合操作，例如mean()。

transform( ) #返回映射后的结果
apply( ) #返回没有映射的结果

七、数据加载

1. 读取type-.txt文件

2. 将文件中每一个词作为元素存放到DataFrame中

3. 读取数据库中的数据

八、透视表

透视表是一种可以对数据动态排列并且分类汇总的表格格式。在Excel中常用，而在pandas中被称作pivot_table。
透视表优点：
- 灵活性高，可以随意定制你的分析计算要求
- 脉络清晰易于理解数据
- 操作性强，报表神器

1. 导入数据

2. 参数index

3. 参数values

4. 参数aggfunc

5. 参数columns

九、交叉表

是一种用于计算分组的特殊透视表，对数据进行汇总
pd.crosstab(index,columns)
index：分组数据，交叉表的行索引
columns：交叉表的列索引

1. 原始数据

2. 求出各个性别（列）抽烟（行）的人数

3. 求出各个年龄段（行）抽烟（列）人的情况

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。