无监督聚类（图）的一些方法比较---待整理和完善

最新推荐文章于 2025-09-23 16:06:56 发布

转载最新推荐文章于 2025-09-23 16:06:56 发布 · 623 阅读

3 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/Jerry-PR/articles/5403455.html

文章标签：

#人工智能

本文对比了多种无监督聚类方法，特别是介绍了蔡登的非负矩阵分解（GNMF）算法，提供了一个百度云的代码下载链接，并引用了相关的博客文章来源。

无监督聚类（图）的一些方法比较---待整理和完善

代码整理：

GNMF（蔡登Non-negative Matrix Factorization on Manifold）：百度云链接: http://pan.baidu.com/s/1pLGLnzd 密码: nb45

转载于:https://www.cnblogs.com/Jerry-PR/articles/5403455.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

baiguihe5021

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

无监督图像聚类技术研究与实现

AI天才研究院

08-10

398

作者：禅与计算机程序设计艺术 1.简介图像聚类（Clustering）是利用相似性来对图像进行划分的一种无监督学习方法。相比于传统的分类任务，图像聚类的目标是在没有标签信息的情况下对图像集合进行划分，使得同一类的图像具有相似的特征，不同类的图像具有不同的特征。而对于许多实际应用场景来说，这一技术显

机器学习全套教程（十九）-- 无监督学习-K-means算法

python爬虫人工智能大数据

03-25

613

学习目标目标说明K-means算法原理说明K-means的性能评估标准轮廓系数说明K-means的优缺点应用 instacart用户聚类回忆非监督学习的特点？ 1、什么是无监督学习一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组，以便广告客户可以通过有关联的广告接触到他们的目标客户。 Airbnb 需要将自己的房屋清单分组成不...

参与评论您还未登录，请先登录后发表或查看评论

无监督图像聚类

Weyoung_的博客

09-18

5893

《基于卷积神经网络的大规模人脸聚类》-申小敏使用上图的CNN结构，在LFW人脸数据库上进行训练，得到一个经过预训练的CNN网络。使用预训练的CNN网络提取人脸特征，提取出的特征用于K-means聚类得出最后的聚类结果。评价指标：Rand Index聚类评价，F1-measure聚类评价。《Learning Feature Representations with K-me...

无监督的一致性聚类（consensus）的通俗理解

XIAOFEI@IDO

12-29

1万+

一、背景介绍当我们听到一致性聚类的时候，有时候我们会认为这是一种聚类方法。如果您也这样想的话，那就完全入坑了。下面我们来说一下，什么是一致性聚类（consensus）? 聚类的算法有许多，比如划分式聚类（k-means），基于密度的聚类算法（DBSCAN, OPTICS），层次聚类算法等，这些的方法的实现还是相对较为容易的（毕竟有数学公式推导，相信只要能看懂数学公式，实现都不是问题），那么主要的问题是什么呢？在于如何选择合适的参数从而得到最优的分类（最优包括稳定的，有意义的分类结果）。稳定的分类是

热图中的层次聚类

Nolan777的博客

04-16

9882

无监督聚类算法—K-means算法基础

qq_50086023的博客

11-10

1171

K-means又称K均值聚类法(距离平方和最小聚类法)，其思想与KNN算法相似，但不同的是K-means的聚类中心点会变化，直到算法达到最优。

热图(Heat Map)的绘制

sunflower_sara的机器学习园地

07-15

1万+

热图是无监督聚类的一种第一行：标签无监督聚类的结果状态。绿色为一类，白色另一类第二行: 真实分类状态（金标准）。绿色下的灰色为分类正确的，黑色为分类错误的。白色下的黑色为分类正确的，灰色为分类错误的。第一列：特征无监督聚类的结果。特征分类如图例所示。其他部分：每一行为一个特征，每一列为一个例子，特征值由颜色标识。绿色为一类，蓝色为另一类。如果形成明显的方块，证明具有很好的区分度。R语言程序：环境...

24、基于解剖学的流线束成像分层聚类与临床影像数据无监督聚类分析

kmeans3miner的博客

09-23

本文探讨了两种医学影像中的聚类方法：基于解剖学的流线束成像分层聚类与临床影像数据的无监督聚类。前者利用解剖学信息和欧几里得距离进行白质束聚类，表现出与手动标注高度一致的结果；后者通过空间归一化、特征提取和LDA主题建模，实现对大规模临床影像数据的无监督分组，并结合放射学报告验证聚类的临床意义。两种方法分别在精细神经结构分析和广泛疾病模式发现中展现出优势，未来可结合多模态数据与临床信息进一步提升诊断价值。

聚类算法（K-Means和DBSCAN）

晓海的博客

12-29

5934

聚类算法（K-Means和DBSCAN）目录一、无监督学习与聚类算法 1、旨在理解数据自然机构的聚类 2、用于数据处理的聚类二、核心概念 1、聚类分析 2、簇三、基于原型的技术：K-Means 1、基于原型的簇 2、K-means的基本定义 3、算法执行细节四、使用sklearn实现K-Means 1、重要参数：n_clusters 2、聚类算法的模型评估指标：轮廓系数 3、案例：基础轮...

【可视化k-means聚类结果】：C++与数据可视化工具的无缝对接

![【可视化k-means聚类结果】：C++与数据可视化工具的无缝对接]...本文全面介绍了k-means聚类算法，并探讨了其在C++中的实现方法以及与数据可视化工具的集成。首先，我们概述了k

C语言实现K-means聚类算法的实践

K-means聚类算法是一种常用的无监督学习算法，用于将一组数据点分成K个不同的类别或簇。它通过迭代的方式将数据点分配给离它们最近的聚类中心，并更新聚类中心的位置，直到达到收敛的状态。这个算法的核心思想是将...

机器学习之聚类分析-无监督学习，看这一篇就够了！

weixin_74009895的博客

10-11

2647

机器学习之聚类分析-无监督学习，看这一篇就够了！

无监督算法

妖米的博客

03-01

1660

无监督算法简介就是依靠数据之间的相似度，形成数据的类别。层次聚类比如有7个数据点，A，B，C，D，E，F，G。我们采用数据的欧式距离作为相似度（距离越小越相似）：将数据分别两两计算相似度：得到BC的距离最小，这样我们就得到一个新的集合或者说是类：（B,C)。这样我们下一次计算相似度时，只有6个元素了：A，（B,C），D，E，F，G。然后两两计算相似度，得到：当然，要提到的一点是，对于任意元素（如A）和集合（B，C）之间的距离度量，则取A分别和B，C的距离的均值（下面是几何均值）：当然若

干货分享 | R语言聚类分析和相关分析的热图详解

quanzhankaifaqua的博客

12-12

2293

无监督分类：聚类分析（K均值）

沈春旭的博客

06-14

1万+

1.K均值聚类 K均值聚类是最基础的一种聚类方法。K均值聚类，就是把看起来最集中、最不分散的簇标签分配到输入训练样本{xi}中。具体而言就是通过下式计算簇y的分散状况：在这里，∑i,yi=y表示的是满足yi=y的y的和。 μy是指簇y的中心。ny为属于簇y的样本总数。利用上述定义，对于所有的簇y=1,2,3,..,c的下式和最小时，决定其所属的簇标签。然而，

机器学习——无监督学习与聚类分析

Palpitate的博客

03-07

3232

一、无监督学习 1.1定义机器学习的一种方法，训练数据中不带标签，让机器自动寻找数据规律并完成任务（数据不包括正确的结果） 1.2特点数据不需要标签算法不受监督信息（偏见）约束 1.3优点降低数据采集难度，极大程度扩充样本量可能发现新的数据规律、被忽略的重要信息 1.4主要运用聚类分析关联学习维度缩减二、聚类分析 2.1定义把数据样本按照一定的方法分成不同的组别，这样让在同一个组别中的成员对象都有相似的一些属性 2.2应用场景目标用户的群体分类图像切割基因聚类

无监督图像深度聚类模型Deeper Cluster环境配置及训练

青支的博客

09-02

2073

先放论文 Unsupervised Pre-Training of Image Features on Non-Curated Data 以及Facebook的项目地址 GitHub: Deeper Cluster 下载源码及预训练模型 sudo git clone https://github.com/facebookresearch/DeeperCluster.git cd DeeperClu...

无监督学习聚类分析③

weixin_33725126的博客

01-27

712

确定最佳聚类数目 Nbclust包 Nbclust包是《R语言实战》上一个包，定义了几十个评估指标，聚类数目从2遍历到15（自己设定），然后通过这些指标看分别在聚类数为多少时达到最优，最后选择指标支持数最多的聚类数目就是最佳聚类数目。 library(gclus) data(wine) he...

机器学习——非监督学习——层次聚类（Hierarchical clustering）

最新发布

12-17

<think>好的，用户让我写一个聚类代码，处理工业芯片的图像数据，分为pass和fail，目的是通过聚类整理瑕疵特征，然后准备数据用于训练模型。首先，我需要明确用户的需求。他们可能是在做质量检测，希望通过无监督的方法（聚类）来发现不同类型的瑕疵，进而为监督学习准备带标签的数据。用户的数据是图像，所以聚类应该基于图像特征。可能需要先进行特征提取，比如使用预训练的CNN（如ResNet）来提取特征向量。然后使用聚类算法，如K-means或者DBSCAN，将特征向量分成不同的类别。接下来，可能需要分析聚类结果，确定哪些聚类对应pass，哪些对应fail，或者是否有新的瑕疵类型出现。需要注意的是，用户可能没有明确说明数据的格式和规模。比如，图像是否已经预处理过，是否有标注数据，或者只是部分标注。这时候可能需要假设一些步骤，比如使用迁移学习来提取特征，或者使用数据增强来增加样本量。另外，聚类后的数据需要如何整理，是否需要可视化，或者生成标注文件供后续模型训练使用。可能的步骤包括：加载图像数据，预处理（调整大小、归一化等），特征提取，聚类，分析聚类结果，生成标签数据。代码可能需要使用PyTorch或TensorFlow来处理图像，使用scikit-learn进行聚类。此外，用户可能需要评估聚类效果，比如轮廓系数，或者可视化t-SNE图来观察聚类分布。需要考虑到工业芯片图像可能有细微的瑕疵，所以特征提取要足够敏感。如果数据量大，可能需要考虑计算效率，使用PCA降维或者选择更高效的聚类算法。另外，处理后的数据如何保存，比如生成CSV文件或HDF5格式，方便后续模型训练。最后，用户可能需要进一步的步骤，比如如何利用聚类结果生成训练数据，是否需要人工审核聚类结果，或者如何将聚类标签转换为监督学习的标签。可能需要建议后续的流程，比如使用聚类结果作为初始标签，然后进行半监督学习或主动学习，逐步完善数据标注。</think>以下是一个基于图像特征提取和K-means聚类的工业芯片瑕疵分析代码框架： ```python import cv2 import numpy as np from sklearn.cluster import KMeans from sklearn.decomposition import PCA from tensorflow.keras.applications import ResNet50 from tensorflow.keras.preprocessing import image # 1. 数据加载与预处理 def load_chip_images(data_dir): img_paths = [f for f in os.listdir(data_dir) if f.endswith('.jpg')] images = [cv2.imread(os.path.join(data_dir, img)) for img in img_paths] return np.array(images), img_paths # 2. 特征提取（使用预训练ResNet50） def extract_features(images): model = ResNet50(weights='imagenet', include_top=False, pooling='avg') features = [] for img in images: img = cv2.resize(img, (224, 224)) x = image.img_to_array(img) x = np.expand_dims(x, axis=0) x = preprocess_input(x) features.append(model.predict(x).flatten()) return np.array(features) # 3. 特征降维 def reduce_dimensions(features, n_components=50): pca = PCA(n_components=n_components) return pca.fit_transform(features) # 4. 聚类分析 def cluster_features(features, n_clusters=5): kmeans = KMeans(n_clusters=n_clusters, random_state=42) return kmeans.fit_predict(features) # 5. 聚类可视化分析 def analyze_clusters(labels, img_paths, cluster_dir='clustered_images'): os.makedirs(cluster_dir, exist_ok=True) for i, label in enumerate(labels): cluster_path = os.path.join(cluster_dir, f'cluster_{label}') os.makedirs(cluster_path, exist_ok=True) shutil.copy(img_paths[i], os.path.join(cluster_path, os.path.basename(img_paths[i]))) # 主流程 if __name__ == '__main__': data_dir = 'path/to/chip/images' images, img_paths = load_chip_images(data_dir) features = extract_features(images) reduced_features = reduce_dimensions(features) labels = cluster_features(reduced_features) analyze_clusters(labels, img_paths) ``` 聚类完成后，可进行以下数据准备步骤： 1. 人工审核各聚类结果，确定瑕疵类型 2. 为每个聚类分配类别标签（pass/fail/新类型） 3. 生成标注文件（CSV格式示例）： ```csv image_path,label /path/to/cluster_0/image1.jpg,pass /path/to/cluster_1/image2.jpg,micro_crack ... ```