数据预处理的好帮手-密度图

本文通过一个关于南极企鹅登陆冰川频率的例子,展示了如何利用密度图进行数据预处理,有效地对数据进行分类与分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

密度图原本是来自连续概率密度,后来演化成各种密度图。今天参考了各种模型,包括k-means,逻辑模型,都是将密度图放在最先。

看来密度图真真是个宝。

 

今天举个密度图好用的又一个例子。密度图是数据预处理的一把好镜子。

举个例子,

南极有很多漂亮的企鹅,帝企鹅,蓝眼企鹅,黄眼企鹅等等等等,他们发现了一个风景特别好的冰川,他们有事没事就成群结队的到那块冰川上聊天。于是一传十,十传百,好多企鹅都慕名而来。我们叫这块冰川叫清月吧。

我们取一天,比如公元2060年2月29日吧,那可是企鹅们的大日子,我们分析一下,这天首次登陆清月的企鹅们在一年后的10月还有多少登陆这块冰川呢。希望那时候不会有厄尔尼诺现象,清月不会缩小,影响企鹅宝宝的心情。以下为企鹅最后一次登陆清月的时间间隔的分布。

 

 

 

其实61年10月-60年2月29日的时间也很靠近600,所以一定是有些宝宝第一次登陆清月,很失望,也可能人太多,也可能没抢到好位置,再也不来了。结果确实是将近40%的宝宝们不来了。再也不来了。。。

 

剔除掉那些来了就再也不来的宝宝们后为上图。可见明显的两头高,中间低。左边是受10月份月朗星稀的影响,企鹅们还挺爱来清月看风景,右边是那群三分钟热度的小企鹅,最开始来的挺勤,后来又去别的地方玩了,早忘记清月是啥地方了。

针对密度图给出的情况,我们可以将企鹅宝宝们分成四个部分,分开研究。一,只来一次的企鹅们;二,回溯200天有来过的宝宝们,三,最后一次登陆距离截止时间200-400天的宝宝们,四,最后一次登陆距今400多天的宝宝们。

 

就酱紫,密度图很好的完成了企鹅分类和预处理的工作。手工赞!

 

转载于:https://www.cnblogs.com/wutongyuhou/p/5727209.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值