【信用评分预测模型(二)】python数据标准化处理

文章讨论了在数据分析前对数据进行标准化处理的重要性。通过对原始数据的统计分析,发现大部分变量波动性大,需要进行标准化。标准化是一种线性变换,能保持数据排序并提高分析效率。文中提供了Python代码示例来展示如何进行标准化处理,以增强数据稳定性并为后续分析做准备。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

在进行分析之前,要对数据进行合适的处理,数据基本统计分析和标准化是同时进行的。
其中数据基本统计中,对于标称型数据,统计缺失值数量,分级情况,众数以及众数占比。对于数值型数据,主要统计了均值,标准差,缺失值数量,最小值,最大值,中位数。

标准化与否对结果也会有一定的影响,我们先观察下现在标准化的状态。


一、原始数据分析

1.原数据展示

在求得原始数据的均值、方差、标准差、中位数、最小值、最大值之后,利用散点图将数据展示出来。
在这里插入图片描述
通过上图可以看出,除了x2,x7变量外,其他数据的波动性很强,分析时容易产生误差。故需要对此数据集进行标准化或归一化处理。

2.标准化和归一化选取

标准化、归一化的区别:

  • 归一化是标准化的一种,它的缩放仅与最大、最小值的差别有关;输出范围在0—1间
  • 标准化缩放和每个值都有关系,通过方差体现出来。当数据更集中时,数据标准化后更分散;数据分布很广时,数据标准化后会更集中。输出范围是一个特定的区间,在-∞—+∞。且均值为0,标准差为1的数据
  • 如果对输出结果范围有要求,用归一化;
  • 如果数据较稳定,不存在极端的最大最小值,用归一化;
    由于此数据较为不稳定

经过上述分析,此数据波动较大,存在极端最大最小值,故选用标准化去处理数据。

二、标准化处理

1.意义

数据标准化其实是对向量X按比例压缩再平移,本质上是一种线性变换。线性变换又很多良好的性质,这决定了对数据变换后的数据反而能提高数据效率。比如:线性变换不改变原始数据的数值排序。这保证了数据变换后依然有意义,因为线性变换保持线性组合与线性关系式不变。
并且在数据标准化后,数据的稳定性得到保证,对后续分析有很大的作用。

评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一帆1018

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值