在这篇文章中,我们将学习如何实现自动编码器来构建稀有事件分类器。 我们将使用来自的真实稀有事件数据集 here.
Background
什么是极端罕见的事件?
在一个罕见的问题中,我们有一个不平衡的数据集。意思是,我们得到的阳性标记样本少于阴性。在典型的罕见事件中,正标记数据约占总数的5-10%。在一个极端罕见的事件问题中,我们的标记数据不到1%。例如,在这里使用的数据集中,它约为0.6%。
这种极端罕见的事件问题在现实世界中非常普遍,例如,在制造,点击或在线行业购买时的纸张断裂和机器故障。
对这些罕见事件进行分类非常具有挑最近,深度学习已被广泛用于分类。但是,少量阳性标记样本禁止深度学习应用。无论数据有多大,深度学习的使用都受到正面标记样本数量的限制。
我们为什么还要费心使用深度学习?
这是一个合理的问题。为什么我们不应该考虑使用另一种机器学习方法?
答案是主观的。我们总是可以采用机器学习方法。为了使其工作,我们可以从负面标记的数据中取样,以获得接近平衡的数据集。由于我们有大约0.6%的正标记数据,因此欠采样将导致数据集粗糙,大约是原始数据大小的1%。机器学习方法,例如SVM或随机森林仍然可以处理此大小的数据集。但是,它的准确性会受到限制。我们不会利用剩下的~99%的数据中存在的信息。
如果数据足够,则深度学习方法可能更有能力。它还允许通过使用不同的体系结构灵活地进行模型改进。因此,我们将尝试使用深度学习方法。
在这篇文章中,我们将学习如何使用简