本科毕设研究记录(一)————小样本综述

小样本学习综述:方法、挑战与未来趋势
本文概述了小样本学习的核心问题,如经验风险最小化,以及解决策略,如数据增强和模型算法。重点讨论了数据增强技术在图像、文本和语音等领域的应用,以及元学习、迁移学习等在FSL中的角色。未来工作展望包括多模态融合、元学习改进和自动机器学习在FSL中的发展。

论文链接[1904.05046] Generalizing from a Few Examples: A Survey on Few-Shot Learning (arxiv.org)

综述

问题定义

  • 机器学习定义:A computer program is said to learn from experience E with respect to some classes of task T and performance measure P if its performance can improve with E on T measured by P.

    计算机程序可以通过使用方法P在任务T中获得经验E来使它的表现变好。但是总是需要大量的数据,这是比较困难的。

  • 小样本学习:Few-Shot Learning(FSL) is a type of machine learning problems (specified by E, T and P), where E contains only a limited number of examples with supervised information for the target T.

    使用少量样本数据进行训练完成目标任务的一种机器学习方法。

使用小样本学习典型的几种场景

  • 字符生成:学习(E)由给定示例和监督信息以及预先训练的概念(如零件和关系)组成的知识,作为先验知识。生成的字符通过视觉图灵测试(P)的通过率进行评估,该测试可区分图像是由人类还是机器生成的。
  • 罕见案例学习:当不能获得充足的训练集来进行训练时,如,考虑一个药物发现任务(T),它试图预测一个新分子是否具有毒性作用。正确分配为有毒或无毒(P)的分子百分比随着(E)的增加而提高,(E)通过新分子的有限分析和许多类似分子的分析作为先验知识获得。
  • 减轻样本收集的负担:考虑少量镜头图像分类任务(T)。图像分类精度(P)通过为每个类别的target提取一些标记图像,以及从其他类别(如原始图像)提取先验知识(E)来提高。成功完成此任务的方法通常具有较高的通用性。因此,它们可以很容易地应用于许多样本的任务。

例如下表

在这里插入图片描述

Remark 1.When there is only one example with supervised information inE, FSL is calledone-shot
learning[14,35,138]. When E does not contain any example with supervised information for the
targetT, FSL becomes azero-shot learningproblem (ZSL). As the target class does not contain
examples with supervised information, ZSL requires E to contain information from other modalities
(such as attributes, WordNet, and word embeddings used in rare object recognition tasks), so as to
transfer some supervised information and make learning possible.

当只有一个有监督信息的样本称为单样本学习,没有办法从监督学习获得信息的时候成为0样本学习,0样本要求从其他地方获得信息。

相关的领域

  • Weakly supervised learning弱监督学习:仅从包含弱监督(如不完整、不精确、不准确或有噪声的监督信息)的经验中学习。根据人工干预的不同又分为以下几类:

    • Semi-supervised learning半监督学习:从少量有标签数据和大量无标签数据,通常应用文本分类和网页分类。还有一种Positive-unlabeled learning正未学习,只判断样本是未知的还是正向。
    • Active learning主动学习,它选择信息性的未标记数据来查询oracle的输出。这通常用于注释标签昂贵的应用程序,如行人检测。

    FSL也包括强化学习问题,只有当先验知识是未标记数据且任务是分类或回归时,FSL才成为弱监督学习问题。

  • Imbalanced learning不平衡学习:不平衡学习是从经验中学习的,它的分布是偏态的。在欺诈检测和灾难预测应用程序中,当一些值很少被采用时,就会发生这种情况。

  • 迁移学习:将知识从训练数据丰富的源域/任务转移到训练数据稀缺的目标域/任务。它可以用于跨域推荐、跨时间段、跨空间和跨移动设备的WiFi定位等应用。

    小样本学习中经常使用迁移学习的方法

  • 元学习:元学习者在任务中逐渐学习通用信息(元知识),学习者通过任务特定信息概括元学习者的新任务

    元学习者被视为指导每个特定FSL任务的先验知识。

核心问题

经验风险最小化(Empirical Risk Minimization)

假设一个任务h,我们想最小化他的风险R,损失函数用 p ( x , y ) p(x,y) p(x,y)进行计算。得到如下公式

R ( h ) = ∫ ℓ ( h ( x ) , y ) d p ( x , y ) = E [ ℓ ( h ( x ) , y ) ] R(h)=\int \ell(h(x),y)dp(x,y)=\mathbb{E}[\ell(h(x),y)] R(h)=(h(x),y)dp(x,y)=E[(h(x),y)]

因为 p ( x , y ) 是 未 知 的 , 经 验 风 险 在 有 I 个 样 本 的 训 练 集 上 的 平 均 值 p(x,y)是未知的,经验风险在有I个样本的训练集上的平均值 p(x,y)I来代理经验风险值 R I ( h ) R_I(h) RI(h)

R I ( h ) = 1 I ∑ i = 1 i ℓ ( h ( x i ) , y i ) R_I(h)= \frac{1}I\sum_{i=1}^i \ell(h(x_i),y_i) RI(h)=I1i=1i(h(xi

### 安顺旅游景点数据分析的方法与案例 #### 研究方法综述 在开展安顺旅游景点的数据分析过程中,多种研究方法被综合采用以确保研究成果的全面性和准确性。这些方法涵盖了从理论探讨到实际操作的不同层面: - **文献研究法**:通过广泛查阅国内外关于旅游景点管理和数据分析的相关文献,获取坚实的理论支撑和前沿的技术指导[^1]。 - **实验法**:针对特定时间段内的游客流量变化趋势、客源地分布情况以及消费模式等方面展开现场调研,并借助统计工具处理所获得的第手资料来检验预设假说的有效性。 - **经验总结法**:基于历史积累下来的海量数据集进行深度剖析,提炼出反映当地特色和发展脉络的关键指标体系作为后续决策的重要参考依据之。 - **案例分析法**:选取若干典型景区作为样本对象实施细致入微的研究工作,在此基础上归纳概括共通点并揭示差异所在从而形成可复制推广的成功范本。 - **比较研究法**:放眼全球范围寻找相似条件下的优秀实践案例加以对比学习,从中汲取有益的经验教训用于改进本地化解决方案的设计思路及其具体实施方案的选择上。 #### 技术路线概述 为了更好地服务于上述各项研究活动的需求,整个项目的构建遵循了套严谨而高效的工作流程——即所谓的“技术路线”。该路径强调了信息技术手段在整个过程中的核心地位,特别是Python编程语言的应用价值得到了充分体现。它不仅能够满足大规模复杂运算的要求,而且具备良好的扩展性和兼容性特点,便于与其他软件平台无缝对接共同打造体化的服务环境[^2]。 #### 功能模块介绍 根据业务逻辑划分,整个系统大致由以下几个主要部分构成: - **个人中心**:允许用户自定义偏好设置,保存浏览记录和个人收藏列表等功能; - **门票信息管理**:提供实时更新的票价查询服务的同时还支持在线预订操作; - **民宿信息管理**:展示周边住宿资源概况并对符合条件者给予推荐指引; - **系统管理**:负责维护数据库安全稳定运行状态监控预警机制等系列后台管理工作[^3]。 ```python import pandas as pd from matplotlib import pyplot as plt def analyze_tourist_flow(data_path): df = pd.read_csv(data_path) # 基础描述性统计 summary_stats = df.describe() # 可视化月度访问量走势 monthly_visits = df.groupby('month')['visitors'].sum().reset_index() plt.figure(figsize=(8, 6)) plt.plot(monthly_visits['month'], monthly_visits['visitors']) plt.title('Monthly Visitor Counts') plt.xlabel('Month') plt.ylabel('# of Visitors') plt.show() analyze_tourist_flow('./data/tourism_data.csv') # 调用函数执行分析任务 ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值