机器学习中数据清洗和特征选择总结

本文总结了机器学习中的数据清洗和特征选择。数据清洗包括预处理、异常样本处理、采样策略,如异常值替换、数据去重、处理数据不平衡问题等。特征选择涉及词袋法、TF-IDF、HashTF-IDF、缺省值填充、哑编码、二值化、标准化、归一化、正则化和降维技术,如PCA、LDA,以提高模型性能和收敛速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.数据清洗

1.预处理:理解数据及数据特征(很重要)

2.异常样本数据:

  • 将时间、日期、数值等转为统一格式
  • 去除文本中不需要的特殊字符等
  • 去除内容与字段不对应的情况,如:字段为性别,描述为姓名
  • 数据去重
  • 替换不合理值
  • 核验多数据源数据关联时是否正确

3.采样:

数据不均衡问题:

  • 设置损失函数权重,少数类别增大损失系数
  • 下采样/欠采样:从多数类别数据中随机抽取样本数据,使数据达到平衡
  • 集成下采样/欠采样:采用普通的下采样方式会导致信息丢失,所以一般采用集 成学习和下采样结合的方式来解决这个问题。采用不放回的数据抽取方式抽取多数类别样本数据,然后将抽取出来的数据和少数类别 数据组合训练一个模型;多次进行这样的操作,从而构建多个模型,然后使用多个模型 共同决策/预测

  • 过采样/上采样(Over Sampling):通过有放回抽样来增加 少数样本的数目,然后使用抽取样本+原始数据组成 训练数据集来训练模型;不过该方式比较容易导致过拟合,一般抽样样本不要超 过50%

  • 采用数据合成的方式生成更多的样本,该方式在小数据集场景下具有比较成功的 案例。常见算法是SMOTE算法,该算法利用小众样本在特征空间的相似性来生 成新样本

二.特征转换

1.词袋法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值