10、机器学习基础:数据处理、过拟合与正则化

机器学习基础:数据处理、过拟合与正则化

1. 模型评估方法

在数据量相对较少且需要尽可能精确评估模型时,可采用带洗牌的迭代 K 折验证方法。此方法需多次应用 K 折验证,每次在将数据分割成 K 份之前进行洗牌,最终得分是每次 K 折验证得分的平均值。不过,这种方法最终会训练和评估 P × K 个模型(P 为迭代次数),成本可能较高。

在选择评估协议时,需注意以下几点:
- 数据代表性 :训练集和测试集都应能代表手头的数据。例如,对数字图像进行分类时,若样本按类别排序,取前 80% 作为训练集,后 20% 作为测试集,会导致训练集仅包含 0 - 7 类,测试集仅包含 8 - 9 类。所以,通常在分割数据前应随机洗牌。
- 时间顺序 :若要根据过去预测未来(如明天的天气、股票走势等),分割数据前不应随机洗牌,否则会造成时间泄漏,使模型在未来数据上训练。此时,应确保测试集中的所有数据都在训练集数据之后。
- 数据冗余 :若数据中某些数据点出现两次,洗牌并分割成训练集和验证集会导致两者之间存在冗余,相当于在部分训练数据上进行测试。因此,要确保训练集和验证集不相交。

2. 数据预处理

在将数据输入神经网络之前,需要对输入数据和目标进行预处理,主要包括以下几个方面:
- 向量化 :神经网络的所有输入和目标必须是浮点数据张量(特定情况下为整数张量)。需将声音、图像、文本等数据转换为张量,这一步骤称为数据向量化。例如,在文本分类中,可使用独热编码将文本转换为 float32 数据张量

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值