A Tutorial on Clustering Algorithms - Clustering Algorithms【翻译】

本文介绍了聚类算法的基础概念,包括互斥聚类、重叠聚类、层次聚类及概率聚类等不同分类方式,并详细阐述了四种常用聚类算法:K-means、Fuzzy C-means、层次聚类与混合高斯模型。此外还讨论了距离测度的重要性及其对聚类效果的影响。

原文章 A Tutorial on Clustering Algorithms,包含以下部分:

  1. Introduction
  2. Clustering Algorithms
  3. K-means
  4. Fuzzy C-means
  5. Hierarchical
  6. Mixture of Gaussians

本文为 Clustering Algorithms 翻译内容,后续内容请直接点击以上链接(☑为已完成内容)。

本文系Subson翻译,转载请注明。


聚类算法

算法分类

聚类算法可被分为以下列出的:

  • 互斥聚类
  • 重叠聚类
  • 层次聚类
  • 概率聚类

第一种聚类算法采用互斥的方式将数据聚类,所以如果某一个数据属于一个确切的族簇,那么它将不会包含在另一个族簇中。下图为一个简单的例子,其中点的分离是通过二维平面上的一条直线。

image

与第一种聚类算法相反,第二种重叠聚类使用模糊数据集聚类数据,所以在不同程度关系上来看一个点可能属于两个或者更多的族簇。这种情况下,数据将会关联一个合适的关系值。

作为替代,层次聚类算法是基于最近的两个族簇的联合。初始条件是设置作为族簇的每一个基准。经过几次迭代它能达到期望的族簇。

最后一种聚类算法完全采用概率学方法。

在本教程中,我们提出四种最常用的聚类算法:

  • K-means
  • Fuzzy C-means
  • Hierarchical clustering
  • Mixtyre of Gaussians

这里四种具体的聚类算法分别是上面列举的四种聚类算法的一种。K-means属于互斥聚类,Fuzzy C-means属于重叠聚类,Hierarchical clustering显然是层次聚类,Mixtyre of Gaussians属于概率聚类算法。我们将在接下来的段落讨论以上每一种聚类算法。

距离测度

聚类算法一个非常重要的组成是数据点之间的距离测度。如果数据矢量实例分量都具有相同的物理单元,那么采用简单的欧氏距离度量去成功聚类相似数据实例是足够的。然而即使这样,欧氏距离有时也能导致误导,下图采用宽度和高度作为距离测度举例说明。两种测度都采用相同的物理单元,使用不同的比例缩放(一个在宽度上做缩放,一个在高度上做缩放)。如图所示,不同的缩放导致不同的聚类结果。

image

注意这不仅仅是一个平面问题,这种问题也发生在联合为了聚类的目的所采用的独特距离测度和数据特征向量的单一组成的数学公式上,即不同的公式导致不同的聚类结果。

重述,对于每个具体的应用必须将领域知识用于指导合适的距离测度公式。

闵可夫斯基度规

对于高维数据,一个常用的距离度量就是闵可夫斯基度规

dp(xi,xj)=(K1dxi,kxj,kp)1p

其中 d 是数据的纬度。欧氏距离是p=2时的特殊情况,当 p=1 时则是曼哈顿指标。然而对于任意给定的应用场景,并没有一个一般化理论进行指导。

通常情况下,数据特征向量的分量不具备即刻可比性。可能是这些分量不是连续变量,比如长度,而某些只是名义上的分类,比如一星期的每一天。这再次说明,领域知识必须用于制定合适的度量。

后续章节待续。。。


本文系Subson翻译,转载请注明。

<think>嗯,用户这次明确要获取关于《基于能量学习的教程》的资料。从引用内容看,用户已经接触过Yann LeCun的那篇经典教程,但可能没找到完整资源或需要更系统的讲解。 用户提供的引用碎片中包含了几个关键点:Helmholtz自由能量的类比、概率模型与EBM的关系、损失函数设计(特别是广义感知器损失)、序列建模应用(如支持向量马尔可夫模型),以及随机梯度优化的优势。这些恰好是EBM的核心内容,但用户显然需要更体系化的知识。 考虑到用户研究的是机器学习方向,应该优先推荐权威资料。突然想到Ian Goodfellow在《深度学习》教材里有一章专门讲EBM,比单独教程更易读。不过用户指定要tutorial,所以还是把LeCun的原始论文排第一。MIT的公开课其实更直观,但国内访问可能受限。 用户没提具体应用场景,但引用[3]提到序列建模(语音/手写识别),推测可能是做时序数据研究的。所以补充推荐了CVPR的tutorial和ICLR综述——这类会议文献通常会更新最新进展,比如扩散模型其实也属于EBM框架下的生成模型。 最后加了个“导论级资源”的选项,因为发现用户引用的公式片段(L_{energy})涉及数学推导,若基础不牢可能更适合摩根克莱曼的讲义。要不要提醒数学预备知识呢?但用户没明确表示困难,暂时先保持推荐结构简洁吧。 </think>以下是关于 **基于能量学习(Energy-Based Learning, EBM)** 的权威教程资源与核心内容解析,结合您的引用内容和学术需求整理: --- ### **核心教程推荐** 1. **[Yann LeCun 经典教程]** **《A Tutorial on Energy-Based Learning》** - **作者**:Yann LeCun(深度学习先驱,图灵奖得主) - **内容概要**: - 系统阐述EBM框架如何统一逻辑回归、SVM、结构化预测等模型(引用[3]) - 对比**能量函数**与**概率模型**的关系(引用[1][2]) - 分析损失函数设计原则(如广义感知器损失 $L_{energy}(Y^i, E) = E(W, Y^i, X^i)$ [^4]) - 讨论随机梯度优化在高维非凸问题中的有效性(引用[3]) - **获取途径**: [纽约大学课程页面](https://cilvr.nyu.edu/doku.php?id=courses%3Adeeplearning2015%3Astart) 或 [LeCun个人主页](https://yann.lecun.com) 2. **[MIT 进阶资源]** **《Energy-Based Models for Deep Learning》**(MIT 6.S191) - 重点覆盖: - EBM在生成模型(如图像生成)中的应用 - 对比散度(Contrastive Divergence)、分数匹配(Score Matching)等训练技术 - **视频讲座**:[MIT Deep Learning Courses](http://introtodeeplearning.com) 3. **[最新研究综述]** **《Energy-Based Learning: Advances and Challenges》**(CVPR 2023 Tutorial- 探讨EBM在自监督学习、多模态对齐中的前沿进展 - 开源代码库:[PyTorch-EBM](https://github.com/facebookresearch/EBM) --- ### **关键概念解析**(基于您的引用) 1. **能量函数与自由能量** - 能量函数 $E(W, Y, X)$ 描述配置 $(Y,X)$ 的合理性,值越低表示越合理。 - **Helmholtz自由能量**定义为 $\mathcal{F} = -\log \sum_{Y \in \mathcal{Y}} e^{-E(W,Y,X)}$(引用[1]),其梯度更新同时拉高/拉低不同答案的能量(见图示): ```math \nabla_W \mathcal{L} = \nabla_W E(W, Y^i, X^i) - \mathbb{E}_{Y \sim P(Y|X)}[\nabla_W E(W, Y, X^i)] ``` 2. **EBM vs 概率模型** - EBM直接建模能量,无需归一化成概率(引用[2]): $$ P(Y|X) = \frac{e^{-E(W,Y,X)}}{\int_{Y'} e^{-E(W,Y',X)}} $$ - **优势**:避免计算配分函数(Z)的难题,更适合结构化输出空间。 3. **序列建模应用** - 支持向量马尔可夫模型、图变换器网络(Graph Transformer Networks)等均属EBM框架(引用[3]),通过**结构化能量函数**处理语音识别、手写体识别等任务。 --- ### **学习路径建议** | **阶段** | **资源** | |------------|--------------------------------------------------------------------------| | **基础** | LeCun 教程第1-4章 + [EBM直观解说](https://towardsdatascience.com/energy-based-models-ebms-d5a1a1e4ff75) | | **进阶** | MIT 6.S191 讲座 + [JAX实现EBM](https://github.com/google-research/google-research/tree/master/ebm) | | **前沿** | CVPR 2023 Tutorial + [对比学习中的EBM](https://arxiv.org/abs/2301.00810) | --- ### 相关问题 1. **EBM中如何避免配分函数(Z)的计算瓶颈?** > 常用方法包括:对比散度(CD)、噪声对比估计(NCE)、分数匹配(Score Matching)[^1]。 2. **广义感知器损失(Generalized Perceptron Loss)与负对数似然损失有何区别?** > 前者仅拉低正确答案能量,后者同时拉高错误答案能量;负对数似然是EBM在特定损失下的概率特例(引用[3][4])。 3. **EBM如何处理连续输出空间(如图像生成)?** > 通过Langevin动力学采样:$Y_{t+1} = Y_t - \eta \nabla_Y E(W,Y,X) + \sqrt{2\eta} \epsilon_t$,其中 $\epsilon_t \sim \mathcal{N}(0,I)$。 如需具体章节的数学推导或代码实现细节,可进一步提出需求。建议优先阅读LeCun教程第2章(能量函数设计)和第5章(训练算法)[^3]。 > 参考资料: > [^1]: LeCun Y, et al. *A Tutorial on Energy-Based Learning* (2006) > [^2]: MIT 6.S191: *Deep Generative Modeling* (2023) > [^3]: CVPR Tutorial on *Energy-Based Models* (2023)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值