本文是《A Survey of Learning on Small Data》的翻译。原文链接
小数据学习综述
摘要
在大数据上学习为人工智能(AI)带来成功,但标注和训练成本昂贵。未来,在小数据上学习是人工智能的最终目的之一,它要求机器将依赖小数据的目标和场景识别如人类一样。一系列的机器学习模型正在以这种方式进行,如主动学习、小样本学习、深度聚类。然而,对于它们的泛化性能几乎没有理论保证。此外,它们的大多数设置是被动的,即标签分布由一个指定的采样场景显式控制。本综述遵循PAC(可能近似正确)框架下的不可知主动抽样,以有监督和无监督的方式分析小数据学习的泛化误差和标签复杂性。通过这些理论分析,我们从两个几何角度对小数据学习模型进行了分类:欧几里得和非欧几里德(双曲线)均值表示,并给出和讨论了它们的优化解。随后,总结了可能受益于小数据学习的一些潜在学习场景,并分析了它们的潜在学习场景。最后,还调查了一些具有挑战性的应用,如计算机视觉、自然语言处理,这些应用可能受益于对小数据的学习。
1. 引言
“那是一只睡在床上的猫,那男孩正在拍大象,那些人正在乘飞机,那是一架大飞机……”。“这是一个三岁的孩子在描述她看到的照片”——Fei-Fei Li说。她做了一个著名的演讲“我们如何教计算机理解图片”在2015年科技娱乐设计(TED)中。在现实世界中,人类只能根据自己的先验知识,通过一张图片来识别目标和场景。然而,机器可能需要更多。在过去几十年里,人工智能(AI)技术通过学习大数据帮助机器变得更像人类一样智能。通过建模人脑的神经元传播,建立了一系列表达AI系统,例如深蓝、AlphaGo。
当然,人工智能的天赋并不是天生的。大数据训练有助于Al识别不同的目标和场景。为了处理大数据,实施了一系列技术,例如MapReduce、Hadoop,以访问大规
本文概述了小数据学习的理论基础,包括主动学习和小样本学习。通过对不可知主动抽样的PAC框架分析,文章探讨了小数据学习的泛化误差和标签复杂性,并将其分为欧几里得和非欧几里得两种表示。同时,讨论了小数据学习在计算机视觉和自然语言处理等领域的应用前景。
订阅专栏 解锁全文
455

被折叠的 条评论
为什么被折叠?



