【数据挖掘】Task02笔记汇总

本文详细介绍了使用Pandas, Seaborn及Missingno进行数据探索性分析(EDA)的实用技巧,包括数据预处理、缺失值处理、特征分析及可视化,旨在帮助读者掌握数据科学项目的全流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通过EDA的流程进一步了解了Pandas,Seaborn,Missingno的用法。

 

1. 通过看头和尾来大致了解数据情况,不放心的话执行一步看一步

2. 关于sort_values(inplace=False)可以参考:

https://blog.youkuaiyun.com/MsSpark/article/details/83154128

3. 然后要看看缺失值情况如何,个数小的时候选择填充,lgb等数模型可以空着,树会自己优化的,NAN如果过多可以考虑删掉。

4. missingno是一个可视化缺失值的库,白线越多,代表缺失值越多

5. pandas里的value_counts()计算每个不同值的个数

6. 某个类别特征严重倾斜的时候可以删掉,深挖的意义不太大

7. sns.distplot(y, kde=False, fit=st.johnsonsu) 用seaborn库来画y,用无界约翰逊分布来拟合

8. 看了偏度和峰度之后,复习了一下常见的统计方法:https://blog.youkuaiyun.com/luckarecs/article/details/71627893 

9. https://www.cnblogs.com/wyy1480/p/10474046.html matplotlib.pyplot.hist 是histogram(直方图)的缩写

10. 对数变换之后,分布会变得均匀,这是预测问题常用的小技巧。

11. 有些数据自带数值特征标签和类型特征标签,但我们这个task里面则是要人为设定

12. 关于unique()和nunique():

  • unique()是以 数组形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)
  • nunique() 即返回的是唯一值的个数

13. {:15}——位置映射,相当于{0:15},对应于format中的'',15为字符宽度 (字符串格式化方法之一)

14. pandas的melt方法:https://blog.youkuaiyun.com/mingkoukou/article/details/82867218

15. 此处是多变量之间的关系可视化,可视化更多学习可参考很不错的文章 https://www.jianshu.com/p/6e18d21a4cad

16. astype 强制转换类型

17. df.isnull().any()则会判断哪些”列”存在缺失值

18. 关于category一些常见用法: https://www.cnblogs.com/zry-yt/p/11803892.html

19. 缺失值处理 https://www.jianshu.com/p/f77afc5bcfd3

 

我感觉最好是,用另外一种预测问题,来整个流程跑一次。

然后我现在对可视化出来的图不是很敏感能知道里面反应了什么问题。

期待之后能变得敏锐一点。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值