Training Products of Experts by Minimizing Contrastive Divergence阅读笔记

本文是关于Hinton的对比散度在产品专家(PoE)模型中的应用阅读笔记。PoE模型通过乘积和重新归一化多个分布形成新分布。文章探讨了使用对数似然和对比散度作为目标函数的问题,其中对比散度能更有效地训练RBM。在采样困难的情况下,对比散度提供了一种优化模型参数的方法,通过一步Gibbs采样加速训练过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

Hinton大牛的对比散度阅读笔记

 

个人感想:为了看懂这篇论文查了大量资料,感觉很多博客的理解讲得不是很清楚,大多数是关于对比散度在RBM中的应用。后来跟老师讨论了一下感觉已经大致理解了这篇文章的核心思想。另外大部分公式是自己手动敲的,欢迎大家评论转载,哈哈哈哈!

1.PoE模型

什么是PoE(product of experts)模型呢,更确切地说他应该是一种思想,就是把很多个分布乘起来再重新归一化得到一个新的分布,而这里的每一个分布就是一个专家(expert)。而这篇文章要就是针对这种模型提出了一种新的目标函数,之前使用的是对数似然。顺便提一下,作者在提到PoE模型之前还提出了一种模型,就是加权求和,这种方法是另一种结合多个模型或者分布的方法。就是对多个模型或者分布进行加权求和。但是作者说这种方法在拟合高维数据空间的时候效果不太好,大概就是这个意思吧。也许你已经注意到了我在上面说了很多“模型或者分布”这样的话,我们很多的机器学习模型包括深度学习其实就是在拟合某种数据的分布,这种方法理论上是可行的只要我们可以得到真实分布的下产生的所有数据,那么问题来了,很多时候我们并不知道这个分布。怎么办呢?我们只要利用尽可能多的我们观察到的数据来拟合或者逼近这个分布,如果这个拟合的分布足够接近那个"真实的分布"的话,我们就可以使用这个"拟合的分布"对服从"真实的分布"的还没有观察到的进行比较准确的预测和某种推断。请仔细体会模型和分布的关系。

2.使用对数似然作为PoE模型的目标函数

 PoE模型具体表达式如上面的公式,这个是原文的公式在推导的时候我把下标具体化了,更加方便理解。这里的c可以看作真实分布产生的数据。这里的d是观查到的数据,就是我们实际用来训练模型的数据,这里只是拿出一个数据作为示例。

 

<think>嗯,用户让我介绍一下《Adaptive Mixtures of Local Experts》这篇论文的阅读笔记。首先,我需要回忆一下这篇论文的主要内容。好像是关于机器学习中专家混合模型的,对吧?作者是Michael Jordan和Robert Jacobs,应该是在90年代初发表的。用户可能需要了解论文的核心思想、方法以及应用场景。 用户可能对专家混合模型不太熟悉,所以得先解释清楚基本概念。然后,要说明这篇论文的创新点在哪里,比如自适应分配训练样本到不同的专家网络,以及如何通过门控网络进行整合。可能还需要对比传统的混合模型,突出其优势,比如处理复杂模式的能力。 接下来,用户可能想知道论文的方法论部分。我需要分点说明模型结构、训练算法,比如期望最大化(EM)算法的应用,以及损失函数的设计。这部分要注意用清晰的中文,避免太技术化的术语,但又要准确。同时,用户提到要使用正确的LaTeX格式,所以里面的数学公式需要用$$...$$和$...$正确标注,比如似然函数和梯度下降的公式。 然后,可能需要讨论实验部分,论文中提到的应用场景,比如非线性分类、函数逼近等。要说明实验结果如何支持论文的观点,比如专家网络如何分工合作,提升模型性能。此外,优缺点分析也很重要,比如计算复杂度高,可能过拟合的问题,这样用户能全面了解。 还要考虑用户的需求层次,他们可能是研究生或者刚入门的研究者,需要结构清晰的笔记帮助快速理解论文。所以回答要分章节,比如摘要、核心思想、模型结构、训练方法、实验结果、总结等。同时,用户可能希望知道这篇论文的后续影响,比如在深度学习中的应用,所以可以提到现代模型中的类似思想,比如MoE(Mixture of Experts)。 在写作过程中,要确保LaTeX公式的正确性,比如行内公式用$...$,独立公式用$$...$$并单独成段。例如,门控网络的输出公式要用独立格式,而似然函数中的求和可以用行内格式。同时,注意中文表达流畅,避免直译英文术语,必要时解释概念。 可能还需要检查是否有遗漏的重点,比如模型的可扩展性、实际应用案例等。用户可能对如何实现这个模型感兴趣,所以可以简要提及训练步骤,比如分阶段训练专家和门控网络。此外,强调自适应分配样本的重要性,说明为什么这比传统方法更有效。 最后,总结部分要概括论文的贡献,并指出其优缺点,帮助用户评估该模型是否适合他们的问题。同时,展望后续工作,让读者了解该研究的延续性。整个过程需要保持逻辑清晰,逐步引导用户理解论文内容,确保信息准确可靠。</think>以下是对《Adaptive Mixtures of Local Experts》论文的阅读笔记整理,采用结构化表述: --- ### 1. **论文概要** - **作者**: Michael I. Jordan & Robert A. Jacobs (1991) - **核心问题**: 如何通过模块化神经网络结构解决复杂非线性问题 - **关键思想**: 将任务分解到多个"专家网络"(Local Experts),通过门控网络(Gating Network)动态分配样本并组合结果 --- ### 2. **核心方法** #### 2.1 模型结构 - **专家网络** $E_k(x)$: 多个并行子网络,每个学习输入空间的不同区域 - **门控网络** $G(x)$: 学习样本分配权重,满足 $\sum_{k=1}^K g_k(x) = 1$ - **最终输出**: $$y = \sum_{k=1}^K g_k(x) \cdot E_k(x)$$ #### 2.2 训练算法 - **目标函数**: 最大化对数似然 $$\mathcal{L} = \sum_{i=1}^N \log \sum_{k=1}^K g_k(x_i) \cdot P(y_i | E_k(x_i))$$ - **EM算法步骤**: 1. **E-step**: 计算样本$i$对专家$k$的后验责任(responsibility) $$r_{ik} = \frac{g_k(x_i)P(y_i|E_k(x_i))}{\sum_{j=1}^K g_j(x_i)P(y_i|E_j(x_i))}$$ 2. **M-step**: 更新专家网络参数和门控网络参数 - 专家网络:梯度下降最小化加权损失 $\sum_i r_{ik} \|y_i - E_k(x_i)\|^2$ - 门控网络:通过softmax回归更新权重 #### 2.3 自适应特性 - **空间划分自适应**: 门控网络自动学习输入空间的划分方式 - **专家专业化**: 通过竞争机制使不同专家聚焦不同数据区域 --- ### 3. **实验结果** - **基准任务**: - 非线性分类(如XOR问题) - 函数逼近(分段连续函数) - **关键发现**: - 比单一网络收敛更快 - 专家网络自发形成区域专业化 - 门控网络实现有效任务分解 --- ### 4. **理论贡献** - **混合模型新范式**: 突破了传统固定混合系数的方法 - **概率解释**: 为模型提供了EM算法的理论支撑 - **生物学启发**: 模仿大脑功能分区机制 --- ### 5. **优缺点分析** #### 优点: - 有效处理多模态数据 - 降低单一网络的复杂度 - 可解释性强(专家分工可见) #### 局限: - EM算法收敛速度依赖初始化 - 专家数量需预先设定 - 可能陷入局部最优 --- ### 6. **后续影响** - **现代应用**: - 集成学习的前身 - 与Attention机制有内在联系 - 影响MoE(Mixture of Experts)系列模型发展 - **扩展方向**: - 层级化专家结构 - 在线学习版本 - 结合深度学习框架 --- ### 7. **代码实现要点** ```python # 伪代码示例 for epoch in epochs: # 前向传播 expert_outputs = [expert(x) for expert in experts] gating_weights = softmax(gating_net(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值