机器学习基础:数据处理、过拟合与正则化
1. 模型评估方法
在数据量相对较少且需要尽可能精确评估模型时,可采用带洗牌的迭代 K 折验证方法。此方法需多次应用 K 折验证,每次在将数据分割成 K 份之前进行洗牌,最终得分是每次 K 折验证得分的平均值。不过,这种方法最终会训练和评估 P × K 个模型(P 为迭代次数),成本可能较高。
在选择评估协议时,需注意以下几点:
- 数据代表性 :训练集和测试集都应能代表手头的数据。例如,对数字图像进行分类时,若样本按类别排序,取前 80% 作为训练集,后 20% 作为测试集,会导致训练集仅包含 0 - 7 类,测试集仅包含 8 - 9 类。所以,通常在分割数据前应随机洗牌。
- 时间顺序 :若要根据过去预测未来(如明天的天气、股票走势等),分割数据前不应随机洗牌,否则会造成时间泄漏,使模型在未来数据上训练。此时,应确保测试集中的所有数据都在训练集数据之后。
- 数据冗余 :若数据中某些数据点出现两次,洗牌并分割成训练集和验证集会导致两者之间存在冗余,相当于在部分训练数据上进行测试。因此,要确保训练集和验证集不相交。
2. 数据预处理
在将数据输入神经网络之前,需要对输入数据和目标进行预处理,主要包括以下几个方面:
- 向量化 :神经网络的所有输入和目标必须是浮点数据张量(特定情况下为整数张量)。需将声音、图像、文本等数据转换为张量,这一步骤称为数据向量化。例如,在文本分类中,可使用独热编码将文本转换为 float32 数据张量
超级会员免费看
订阅专栏 解锁全文
1504

被折叠的 条评论
为什么被折叠?



