最近遇到一个新的概念,data augmentation。翻译叫做数据增强
增强数据,简单来说,是增强数据在训练中的作用,这么理解应该比较符合我们的习惯。
比如说,我们有一个set的数据,但是这些数据对于实际的训练来说其实是不够的。但是我们只有这么多数据,要怎么办呢?只能在这个基础上进行操作,我们可以对基础数据进行一系列操作,例如:放大,翻转,加噪声等,就得到了更多的数据。同时也增强了数据的多样性。
目的:1,增加数据集的大小
2,一定程度上避免过拟合
额,稍微有点无奈,这个没什么东西怎么那么多人看。之前和牛津大学的一个同学讨论,觉得数据增强其实没有什么很复杂的理论,其根本宗旨是在给定有限的数据集上对数据进行各种“变化”使其增多。而这个变化要尽可能的合理,更像是自然生成的。
一般来说,大家第一次接触这个概念是图像识别分类上,所以更多的是放大,旋转拉之类。但实际对于语音,文字来说,可以有错别字,可以有鬼画符,可以有说错的音,外界的噪声,这些都可以加到原先的有限数据集中。这个就需要具体问题具体分析了。