本文是《A Survey of Learning on Small Data》的翻译。原文链接
小数据学习综述
摘要
在大数据上学习为人工智能(AI)带来成功,但标注和训练成本昂贵。未来,在小数据上学习是人工智能的最终目的之一,它要求机器将依赖小数据的目标和场景识别如人类一样。一系列的机器学习模型正在以这种方式进行,如主动学习、小样本学习、深度聚类。然而,对于它们的泛化性能几乎没有理论保证。此外,它们的大多数设置是被动的,即标签分布由一个指定的采样场景显式控制。本综述遵循PAC(可能近似正确)框架下的不可知主动抽样,以有监督和无监督的方式分析小数据学习的泛化误差和标签复杂性。通过这些理论分析,我们从两个几何角度对小数据学习模型进行了分类:欧几里得和非欧几里德(双曲线)均值表示,并给出和讨论了它们的优化解。随后,总结了可能受益于小数据学习的一些潜在学习场景,并分析了它们的潜在学习场景。最后,还调查了一些具有挑战性的应用,如计算机视觉、自然语言处理,这些应用可能受益于对小数据的学习。
1. 引言
“那是一只睡在床上的猫,那男孩正在拍大象,那些人正在乘飞机&