10、机器学习基础:从数据处理到过拟合应对

机器学习基础:从数据处理到过拟合应对

1. 模型评估方法

在数据量相对较少且需要精确评估模型时,可采用带洗牌的迭代 K 折验证方法。该方法多次应用 K 折验证,每次分割数据前都进行洗牌,最终得分是每次 K 折验证得分的平均值。不过,这种方法需要训练和评估 P × K 个模型(P 为迭代次数),成本较高。

在选择评估协议时,需要注意以下几点:
- 数据代表性 :训练集和测试集都应能代表手头的数据。例如对数字图像分类时,若样本按类别排序,直接取前 80% 作为训练集,后 20% 作为测试集,会导致训练集和测试集类别分布不均。所以通常在分割数据前应随机洗牌。
- 时间顺序 :若要根据过去预测未来(如天气、股票走势等),分割数据前不应随机洗牌,否则会造成时间泄露,使模型在未来数据上训练。此时应确保测试集数据都在训练集数据之后。
- 数据冗余 :若数据中存在重复数据点,洗牌并分割成训练集和验证集会导致两者间存在冗余,相当于在部分训练数据上测试,这是不可取的。要保证训练集和验证集无交集。

2. 数据预处理与特征工程

在将数据输入神经网络之前,需要进行数据预处理和特征工程。

2.1 神经网络的数据预处理

数据预处理旨在使原始数据更适合神经网络,包括向量化、归一化、处理缺失值和特征提取。
- 向量化 :神经网络的所有输入和目标必须是浮点数据的张量(特定情况下是整数张量)。无论处理何种数据(声音、图像、文本等),都要先将其转换为张量,即数据向

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值