数据增强与经典机器学习模型介绍
数据增强相关内容
数据增强是机器学习中提升模型性能的重要手段,下面将介绍连续特征的数据增强以及图像数据增强的相关内容。
连续特征的数据增强
对于连续特征的数据增强,之前提到的方法仅适用于连续特征。在进行增强时,应谨慎修改主成分中最弱的部分,且修改幅度要小,实验在其中十分重要。可以尝试将相同的技术应用于乳腺癌数据集,该数据集也由连续特征组成。
图像数据增强(以CIFAR - 10数据集为例)
增强图像通常比增强其他类型的数据更简单,且在训练现代模型时同样有效。CIFAR - 10数据集包含彩色图像,以RGB数据形式存储红、绿、蓝通道。由于这些图像是从地面水平拍摄的,上下翻转没有意义,但左右翻转是可行的。常见的图像增强技术包括平移(在x或y方向或两个方向上移动图像)和小角度旋转。
然而,这些操作会带来一个问题:在平移或旋转后,没有数据的像素该如何处理?常见的处理方法有以下几种:
- 保持黑色 :将像素保持为黑色,即所有值为0,让模型学习到这些位置没有有用信息。
- 替换为均值 :用图像的均值替换这些像素,同样不提供额外信息,希望模型忽略这些部分。
- 裁剪图像 :这是最流行的解决方案。例如,从32×32像素的图像中随机抽取28×28像素的补丁,相当于将图像在x或y方向上随机移动最多4个像素,而无需担心填充问题。如果先旋转图像(需要对像素进行插值),然后裁剪以去除边缘区域,就不会有空白像素需要处理。
在使用模型时,对于测试数据
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



