小样本学习,路在何方?【VALSE Webinar】

本文整理自VALSE Webinar,探讨小样本学习的最新进展,涉及小样本与大样本的界定、知识如何弥补数据不足、域漂移的挑战、模型的过拟合问题以及可解释性学习对零样本学习的影响。专家们分享了在医疗图像处理、视觉概念认知等领域的应用,并讨论了数据融合、知识迁移、样本选择和特征增广等策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

编者按:深度学习和人类智能存在一个显著差异,即人类擅长通过极少量的样本识别新类别物体,而深度学习在此情况下很容易产生过拟合。因此,小样本问题成为了机器学习领域中重要的研究方向之一。目前已有基于度量学习、语义信息以及数据增强等多种方法,而至于大小样本的边界、小样本学习的方法论等问题还备受关注。在本文中,复旦大学付彦伟、上海科技大学何旭明、北京邮电大学马占宇、中科院计算所王瑞平(按发言顺序整理),将答疑解惑探讨小样本学习的最新进展。本文整理自VALSE Webinar 2019第29 期Panel。

议题1

小样本 vs 大样本,多“小”才算小,多“大”才算大?什么样的情况下,需要专门设计“小样本”学习算法?小样本学习在智能体学习过程中如何和不同大小样本的数据融合?如何在数据积累中过渡到大样本学习?

付彦伟:这个问题很基础也很有意思,我们其实做小样本,一般都考虑每个类只有一个三个五个、或者十来个样本,这种one-shot 、three-shot、five-shot情况。此外在深度学习之前,从partical learning这个角度来看其实有些问题可以借鉴,在统计学,小样本学习不叫one-shot learning,而叫做smoothing probability,也就是小样本可能还和特征维度有关系。假设你的特征维度是D的话,当样本量小于logD,就算一个比较小的样本。当然现在有深度学习了,我们可能并不会从这个角度去看。

至于什么样的情况需要专门设计小 样本学习算法,其实这是一个很实际或者很工业的问题,比如在医疗图像处理中解决很罕见的病变,样本量确实不够,我们想去学一个分类器就只能根据这个数据去设计小样本学习算法。

小样本学习在智能体学习过程如何和不同大小样本的数据融合,这其实有很多角度。比如李飞飞老师在 ICCV2003年的一篇文章,通过贝叶斯这条思路去融合;我们也可以和专家系统,或者通过一些专家知识融合,甚至可以和不同的领域,比如vocabulary inference learning领域,通过NLP去学习一些语义字典帮助小样本学习;如何在数据积累中过渡到大样本学习,这有一个很典型的增量学习问题。 

何旭明:从视觉概念的认知角度来看,小样本的“大小”也体现在它与其他类别之间区分度的大小。即使有些类别样本数量比较小,如果它和其他类别相似度较高,可以用很多先验知识来帮助学习这些小样本,因此也可以不算“小样本”。如果碰到一个和其他类区别很大的类别,可能通常的学习就会变得非常困难,需要当作小样本看待。

如果利用一些先验知识能够帮助学习小样本类别,我觉得这种情况是可以设计相关算法的。但如果很难得到先验知识,那无论什么设计也学不到有用信息。

针对如何从不同大小样本中的数据融合问题,我认为可以从大样本入手开始学习,然后扩展到小样本。即使类别不同,如果有相关性的话,依然可以去借鉴大样本统计上的一些规律来帮助小样本学习。

最后,借鉴人类的学习过程来说,一开始可能是小样本,然后不断在数据积累和反馈机制下,可以获得更新的数据。这样可以把视觉概念的表征不断地细化,最后能够自然而然地就能过渡到大样本。

马占宇:关于如何与不同规模大小样本的数据融合,我觉得还有一个不平衡的学习问题。即首先分清哪些类别样本是小的,哪些类别是大的。这种情况下,不是简简单单真地把小样本变大,或者是说把大样本增强,理想的状况是能够在数据分布不平衡的情况下,去做一个比较好的分类器。

议题2

引入知识来弥补小样本的数据不足是一个较为公认的趋势,到底什么算是“知识”,有哪些形式?目前真正管用/好用的“知识”是什

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值