【论文笔记1】小样本分类

FSL学习笔记

最新论文&代码收集网站:网址连接

论文1:孪生网络 (Metric Based)

Siamese Neural Networks for One-shot Image Recognition

通过Siamese神经网络借助监督度量的方法学习图像表示,然后重用该网络的特征进行OneshowtLearning,而不需要任何再训练。

孪生网络由两个结构相同(参数也相同:权重绑定了)的网络组成,这两个网络接受不同的输入,并且这两个网络最后由一个能量函数(Energy fuction)汇合到一起。这个Energy Fuction用于计算两个特征图之间的距离。
使用加权的L1距离来进行特征向量之间的距离,并结合了sigmoid激活函数。(使用了交叉熵损失函数)
孪生网络的模型结构如图所示。 最后的卷积层中的单位被压平成一个矢量。
网络模型结构
预测向量(prediction vector)的公式是:p =
在这里插入图片描述
其中,σ是sigmoi的函数,αj是对每个向量的第j维的权重进行调节(是可学习的参数)。
所定义的交叉熵损失函数如下所示:
损失函数
当两张图片相同时y=1;当两张图片不同时y=0。

论文2 匹配网络 (Metric Based)

Matching Networks for One Shot Learning

比较高明的解读:链接
研究背景

  1. 少样本数据经常存在,但是
  2. 数据增强和正则化方法能够避免过拟合,却不能让网络学习的很好
  3. 需要随机梯度下降多次,这是浪费时间的

研究贡献

  • 提出了一种匹配网络MN
  • test and train conditions must match. (为了使得网络能够更快的适应新的模型算法,即 训练的时候就和测试一样都是一样的输入方式)
  • 关键:经过训练后,匹配网络能够为未观察到的类产生合理的测试标签,而不需要对网络进行任何更改
<think>嗯,用户让我介绍一下《Adaptive Mixtures of Local Experts》这篇论文的阅读笔记。首先,我需要回忆一下这篇论文的主要内容。好像是关于机器学习中专家混合模型的,对吧?作者是Michael Jordan和Robert Jacobs,应该是在90年代初发表的。用户可能需要了解论文的核心思想、方法以及应用场景。 用户可能对专家混合模型不太熟悉,所以得先解释清楚基本概念。然后,要说明这篇论文的创新点在哪里,比如自适应分配训练样本到不同的专家网络,以及如何通过门控网络进行整合。可能还需要对比传统的混合模型,突出其优势,比如处理复杂模式的能力。 接下来,用户可能想知道论文的方法论部分。我需要分点说明模型结构、训练算法,比如期望最大化(EM)算法的应用,以及损失函数的设计。这部分要注意用清晰的中文,避免太技术化的术语,但又要准确。同时,用户提到要使用正确的LaTeX格式,所以里面的数学公式需要用$$...$$和$...$正确标注,比如似然函数和梯度下降的公式。 然后,可能需要讨论实验部分,论文中提到的应用场景,比如非线性分类、函数逼近等。要说明实验结果如何支持论文的观点,比如专家网络如何分工合作,提升模型性能。此外,优缺点分析也很重要,比如计算复杂度高,可能过拟合的问题,这样用户能全面了解。 还要考虑用户的需求层次,他们可能是研究生或者刚入门的研究者,需要结构清晰的笔记帮助快速理解论文。所以回答要分章节,比如摘要、核心思想、模型结构、训练方法、实验结果、总结等。同时,用户可能希望知道这篇论文的后续影响,比如在深度学习中的应用,所以可以提到现代模型中的似思想,比如MoE(Mixture of Experts)。 在写作过程中,要确保LaTeX公式的正确性,比如行内公式用$...$,独立公式用$$...$$并单独成段。例如,门控网络的输出公式要用独立格式,而似然函数中的求和可以用行内格式。同时,注意中文表达流畅,避免直译英文术语,必要时解释概念。 可能还需要检查是否有遗漏的重点,比如模型的可扩展性、实际应用案例等。用户可能对如何实现这个模型感兴趣,所以可以简要提及训练步骤,比如分阶段训练专家和门控网络。此外,强调自适应分配样本的重要性,说明为什么这比传统方法更有效。 最后,总结部分要概括论文的贡献,并指出其优缺点,帮助用户评估该模型是否适合他们的问题。同时,展望后续工作,让读者了解该研究的延续性。整个过程需要保持逻辑清晰,逐步引导用户理解论文内容,确保信息准确可靠。</think>以下是对《Adaptive Mixtures of Local Experts》论文的阅读笔记整理,采用结构化表述: --- ### 1. **论文概要** - **作者**: Michael I. Jordan & Robert A. Jacobs (1991) - **核心问题**: 如何通过模块化神经网络结构解决复杂非线性问题 - **关键思想**: 将任务分解到多个"专家网络"(Local Experts),通过门控网络(Gating Network)动态分配样本并组合结果 --- ### 2. **核心方法** #### 2.1 模型结构 - **专家网络** $E_k(x)$: 多个并行子网络,每个学习输入空间的不同区域 - **门控网络** $G(x)$: 学习样本分配权重,满足 $\sum_{k=1}^K g_k(x) = 1$ - **最终输出**: $$y = \sum_{k=1}^K g_k(x) \cdot E_k(x)$$ #### 2.2 训练算法 - **目标函数**: 最大化对数似然 $$\mathcal{L} = \sum_{i=1}^N \log \sum_{k=1}^K g_k(x_i) \cdot P(y_i | E_k(x_i))$$ - **EM算法步骤**: 1. **E-step**: 计算样本$i$对专家$k$的后验责任(responsibility) $$r_{ik} = \frac{g_k(x_i)P(y_i|E_k(x_i))}{\sum_{j=1}^K g_j(x_i)P(y_i|E_j(x_i))}$$ 2. **M-step**: 更新专家网络参数和门控网络参数 - 专家网络:梯度下降最小化加权损失 $\sum_i r_{ik} \|y_i - E_k(x_i)\|^2$ - 门控网络:通过softmax回归更新权重 #### 2.3 自适应特性 - **空间划分自适应**: 门控网络自动学习输入空间的划分方式 - **专家专业化**: 通过竞争机制使不同专家聚焦不同数据区域 --- ### 3. **实验结果** - **基准任务**: - 非线性分类(如XOR问题) - 函数逼近(分段连续函数) - **关键发现**: - 比单一网络收敛更快 - 专家网络自发形成区域专业化 - 门控网络实现有效任务分解 --- ### 4. **理论贡献** - **混合模型新范式**: 突破了传统固定混合系数的方法 - **概率解释**: 为模型提供了EM算法的理论支撑 - **生物学启发**: 模仿大脑功能分区机制 --- ### 5. **优缺点分析** #### 优点: - 有效处理多模态数据 - 降低单一网络的复杂度 - 可解释性强(专家分工可见) #### 局限: - EM算法收敛速度依赖初始化 - 专家数量需预先设定 - 可能陷入局部最优 --- ### 6. **后续影响** - **现代应用**: - 集成学习的前身 - 与Attention机制有内在联系 - 影响MoE(Mixture of Experts)系列模型发展 - **扩展方向**: - 层级化专家结构 - 在线学习版本 - 结合深度学习框架 --- ### 7. **代码实现要点** ```python # 伪代码示例 for epoch in epochs: # 前向传播 expert_outputs = [expert(x) for expert in experts] gating_weights = softmax(gating_net(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一位不愿透漏姓氏的许先森

你的鼓励是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值