数学建模1 数据预处理

博客主要介绍数据挖掘中缺失值和异常值的处理方法。缺失值处理有删除指标、均值众数插补、Newton插值法、样条插值法等,不同方法适用于不同赛题。异常值处理可采用正态分布3σ原则和画箱型图,前者有适用和不适用的总体分布情况。

目录

1 缺失值处理

2 异常值处理


1 缺失值处理

比赛提供的数据,发现有些单元格是null或空的。

        1.缺失值太多就要把该项指标删除(40%相当大)

        2.最简单处理(对个体精度要求不大):均值、众数插补

适用赛题:人口的数量年龄、经济产业情况等统计数据

        3.Newton插值法(对导数没有要求):构建近似函数,补上缺失值。缺点是区间边缘处的不稳定振荡。

适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据

        4.样条插值法:用分段光滑的曲线去插值。(光滑:曲线连续,曲率连续)

适用赛题:零件加工、水库水流量、图像“基线漂移”、机器人轨迹等精度要求高、没有突变的数据

2 异常值处理

样本中明显和其他数值差异很大的数据。

        正态分布3σ原则

1.先找到异常值,再将其删去,用上面缺失值的方式补上

2.找异常值:正态分布(不适合排队论) 在正态分布中σ代表标准差,μ代表均值,x=μ即为图像的对称轴.

适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量等

不适用题目:总体符合其他分布,如公交站人数排队论符合柏松分布。

        画箱型图(普遍适用)

1)从上到下,即数据从大到小
2)IQR越大,箱子越大,数据分散
3)在区间范围之外为异常值

### 数学建模中的数据预处理方法与技巧 数学建模过程中,数据预处理是一个至关重要的环节。其目的是为了提高后续分析的准确性并减少噪声干扰。以下是几种常见的数据预处理方法和技巧: #### 1. 数据清洗 数据清洗是指识别并修正或删除数据集中的错误、不完整或者冗余的部分。这一步骤通常包括缺失值处理、异常值检测以及重复记录移除等内容[^1]。 对于缺失值,可以采用如下策略: - 删除含有缺失值的样本; - 使用均值、中位或其他统计量填补缺失值; - 利用插值法估计丢失的数据点。 异常值可以通过可视化手段(如箱线图)发现,并决定是否剔除这些极端观测值。如果保留,则需考虑对其进行适当变换以降低影响程度。 ```python import pandas as pd from sklearn.impute import SimpleImputer # 假设df是我们读取后的DataFrame对象 imputer = SimpleImputer(strategy='mean') cleaned_data = imputer.fit_transform(df) ``` #### 2. 数据集成与转换 当多个数据库或文件需要组合在一起时,就会涉及到数据集成问题。此过程可能引发属性冲突等问题,因此必须谨慎对待每一个细节[^3]。 另外,在某些情况下还需要执行标准化/归一化操作以便使不同尺度下的变量具有可比性。例如Z-score标准化就是一种常用的技术,它可以将原始分转化为标准分从而便于比较各个维度上的差异大小。 ```python from sklearn.preprocessing import StandardScaler, MinMaxScaler scaler_std = StandardScaler() scaled_features = scaler_std.fit_transform(cleaned_data) scaler_minmax = MinMaxScaler(feature_range=(0, 1)) normalized_features = scaler_minmax.fit_transform(scaled_features) ``` #### 3. 特征选择与提取 特征工程在整个机器学习项目里占据极其重要地位,因为它直接影响最终预测效果的好坏。有效的特征不仅能增强模型表现力还能加快训练速度节省计算成本[^5]。 一些经典的降维技术像PCA(Principal Component Analysis)主成分分析可以帮助我们找到最重要的几个方向投影上去表示原高维空间的信息;而LDA(Linear Discriminant Analysis)则侧重寻找类别间最大分离度的方向来进行分类任务前的准备工作。 ```python from sklearn.decomposition import PCA pca = PCA(n_components=2) principalComponents = pca.fit_transform(normalized_features) ``` #### 4. 非参值规约 这种方法特别适合那些无法满足传统假设检验条件的数据集合。它们往往更加注重实际观察到的现象规律而不是理论分布形态匹配状况,所以具备更强适应性和灵活性特点[^4]。 --- ### 总结 综上所述,成功的数学建模离不开细致入微的数据预处理工作。只有经过精心挑选调整过的高质量输入源才能让复杂的算法发挥出应有的潜力价值所在之处正是这里体现得淋漓尽致!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汽水啤酒花

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值