Alfred数据分析项目实践笔记

本文全面介绍了数据科学领域的关键工具和技术,包括matplotlib、pandas、numpy等库的使用技巧,正则表达式的应用,以及seaborn的数据可视化方法。涵盖了数据预处理、分析、可视化等各个环节,是数据科学家和分析师的必备指南。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. matplotlib (plt)
1.1 美化风格ggplot & 显示调整

在这里插入图片描述

  • ggplot是matplotlib的一种美化风格
  • 最后三行是调整一些plt显示的问题
2. pandas (pd)
2.1 concat 数据组合

在这里插入图片描述

2.2 split 字符串分割

在这里插入图片描述

  • pandas字符串分割,把“-”两端分开,分成两列:

原始:
在这里插入图片描述
分割后:
在这里插入图片描述

2.3 loc iloc数据提取

在这里插入图片描述
pandas中loc用于提取数据,默认提取行数据。
https://blog.youkuaiyun.com/w_weiying/article/details/81411257
区别:
loc根据索引,而iloc根据行列编号。如图:
在这里插入图片描述

2.4 groupby

在这里插入图片描述
以上是求不同城市平均工资的平均值
groupby用法 https://www.jianshu.com/p/42f1d2909bb6

2.5 value_counts()

value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。

在这里插入图片描述
.nlargest(11) 取最大的10个值。

2.6 drop_duplicates 去重

https://blog.youkuaiyun.com/u010665216/article/details/78559091/

2.7 head 取前五行数据

在这里插入图片描述

2.8 merge将两个表格合并

https://blog.youkuaiyun.com/zhouwenyuan1015/article/details/77334889

2.9 sort_value 排序

https://blog.youkuaiyun.com/wendaomudong_l2d4/article/details/80648633

  • by:str or list of str;如果axis=0,那么by=“列名”;如果axis=1,那么by=“行名”;
  • ascending:布尔型,True则升序,可以是[True,False],即第一字段升序,第二个降序
3. numpy (np)
3.1 常见计算np.round、np.floor、np.ceil、np.where

https://blog.youkuaiyun.com/tz_zs/article/details/80775256

3.2 astype 类型转换

在这里插入图片描述

4. re 正则

在这里插入图片描述
re.findall 正则匹配

5. seaborn 可视化图表

在这里插入图片描述
seaborn可视化,官方网站https://seaborn.pydata.org/generated/seaborn.FacetGrid.html
aspect 宽高比
size 图表的大小
xlim x轴限制范围

博客
https://blog.youkuaiyun.com/unixtch/article/details/78820654

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值