本文是蒸馏学习综述系列的第二篇文章,Data Distillation: A Survey的一个翻译
数据蒸馏:综述
摘要
深度学习的普及导致了大量海量、多样的数据集的管理。尽管在单个任务上具有接近人类的表现,但在大型数据集上训练参数饥饿模型会带来多方面的问题,例如(a)高模型训练时间;(b) 研究迭代缓慢;以及(c)生态可持续性差。作为一种替代方案,数据蒸馏方法旨在合成简洁的数据摘要,这些摘要可以作为原始数据集的有效替代品,用于模型训练、推理、架构搜索等场景。在本次综述中,我们提出了数据蒸馏的正式框架,并提供了现有方法的详细分类。此外,我们还介绍了不同数据模态的数据蒸馏方法,即图像、图形和用户-项目交互(推荐系统),同时还确定了当前的挑战和未来的研究方向。
1 引言
(松散)定义1。(数据蒸馏)旨在合成微小高保真数据摘要的方法,从给定的目标数据集中蒸馏最重要的知识。这种蒸馏的摘要经过优化,可以作为原始数据集的有效替代品,用于高效准确的数据使用应用,如模型训练、推理、架构搜索等。
最近的“规模就是一切”观点认为,在更大的数据集上训练更大的模型(即由更大量的参数组成),并使用更大的计算资源是推进人工智能前沿的唯一关键。另一方面,一个理由充分、有原则的解决方案可以说更适合扩大规模,从而更快地取得进展。数据蒸馏(定义1)是一项植根于后一学派的任务。显然,规模观点仍然成立,因为如果我们继续增加数据量(尽管现在已经压缩,质量更高),我们将观察到上游和下游泛化的改善,但速度更快。
动机。一个简洁、高质量的数据摘要包含了来自各种观点的用例。首先也是最重要的一点是,它导致了更快的模型训练过程。反过来,更快的模型训练相当于(1)节省了计算机成本并加快了研究迭代,即手动试验不同想法的研究程序;以及(2)生态可持续性的提高,即降低计算时间直接导致运行
本文概述了数据蒸馏的概念,它旨在通过合成简洁的数据摘要来替代大规模数据集,以加速模型训练、提高研究效率和生态可持续性。数据蒸馏分为元模型匹配、梯度匹配、轨迹匹配和分布匹配等多种框架,每种框架有其独特优势和挑战。目前,数据蒸馏已应用于图像、文本、图和推荐系统等领域,同时在差分隐私、神经结构搜索和持续学习中展现出潜力。未来的研究方向包括扩展到新的数据模式、提高可扩展性和优化方法的改进。
订阅专栏 解锁全文
1792

被折叠的 条评论
为什么被折叠?



