一.数据清洗
1.预处理:理解数据及数据特征(很重要)
2.异常样本数据:
- 将时间、日期、数值等转为统一格式
- 去除文本中不需要的特殊字符等
- 去除内容与字段不对应的情况,如:字段为性别,描述为姓名
- 数据去重
- 替换不合理值
- 核验多数据源数据关联时是否正确
3.采样:
数据不均衡问题:
- 设置损失函数权重,少数类别增大损失系数
- 下采样/欠采样:从多数类别数据中随机抽取样本数据,使数据达到平衡
-
集成下采样/欠采样:采用普通的下采样方式会导致信息丢失,所以一般采用集 成学习和下采样结合的方式来解决这个问题。采用不放回的数据抽取方式抽取多数类别样本数据,然后将抽取出来的数据和少数类别 数据组合训练一个模型;多次进行这样的操作,从而构建多个模型,然后使用多个模型 共同决策/预测
-
过采样/上采样(Over Sampling):通过有放回抽样来增加 少数样本的数目,然后使用抽取样本+原始数据组成 训练数据集来训练模型;不过该方式比较容易导致过拟合,一般抽样样本不要超 过50%
-
采用数据合成的方式生成更多的样本,该方式在小数据集场景下具有比较成功的 案例。常见算法是SMOTE算法,该算法利用小众样本在特征空间的相似性来生 成新样本
二.特征转换
1.词袋法