11、聚类算法在MNIST数据集上的应用与评估

最新推荐文章于 2025-11-03 11:26:05 发布

code8

最新推荐文章于 2025-11-03 11:26:05 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁无监督学习的秘密文章标签：聚类算法 MNIST 降维

本文链接：https://blog.youkuaiyun.com/code8/article/details/152289075

解锁无监督学习的秘密专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类算法在MNIST数据集上的应用与评估

1. 评估聚类结果

为了演示k-means算法的工作原理以及增加簇数量如何使簇更加同质，我们定义一个函数来分析每次实验的结果。聚类算法生成的簇分配将存储在一个名为 clusterDF 的Pandas DataFrame中。以下是具体步骤：
1. 统计每个簇中的观测数量 ：

def analyzeCluster(clusterDF, labelsDF):
    countByCluster = \
        pd.DataFrame(data=clusterDF['cluster'].value_counts())
    countByCluster.reset_index(inplace=True,drop=False)
    countByCluster.columns = ['cluster','clusterCount']

合并簇分配和真实标签 ：

    preds = pd.concat([labelsDF,clusterDF], axis=1)
    preds.columns = ['trueLabel','cluster']

统计每个真实标签的观测数量 ：

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

code8

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

13、聚类算法在MNIST数据集和借贷俱乐部数据中的应用

ttt77的博客

11-03

本文探讨了多种聚类算法在MNIST图像数据集和借贷俱乐部贷款数据中的应用。在MNIST数据上，k-means和层次聚类表现出色，准确率超过70%，而DBSCAN和HDBSCAN效果不佳，准确率仅约24%。在借贷俱乐部数据中，通过数据清洗、特征工程和标准化预处理后，应用K-Means、层次聚类和DBSCAN进行用户分群，并比较其聚类效果。文章还展示了聚类结果的可视化方法，帮助理解不同算法的性能差异，为实际业务中的客户细分提供技术参考。

12、聚类算法在MNIST和贷款数据中的应用分析

code8的博客

09-18

本文分析了DBSCAN和HDBSCAN等密度聚类算法在MNIST图像数据集上的应用效果，发现其聚类准确率较低且多数样本被标记为噪声。随后，在Lending Club贷款数据上进行了详细的数据预处理、特征工程与标准化，并采用K-means和层次聚类等方法进行聚类分析，使用贷款等级作为代理标签评估聚类同质性。通过定义评估函数和可视化手段，比较了不同聚类算法的性能，探讨了聚类结果在信用风险分析中的潜在应用价值。

参与评论您还未登录，请先登录后发表或查看评论

深度学习实践：MNIST数据集与聚类方法

weixin_36047538的博客

04-23

375

本章介绍了如何使用MNIST数据集进行深度学习模型的训练，包括安装mnist库、加载数据、数据预处理、模型训练、评估以及保存和加载模型的方法。同时，本章还探讨了无监督学习中的聚类概念，以及如何在数据科学中应用聚类算法。

12、聚类算法在MNIST和借贷数据集中的应用与分析

tgb3456789的博客

11-03

本文探讨了多种聚类算法（包括DBSCAN、HDBSCAN、K-means和层次聚类）在MNIST图像数据集和借贷俱乐部金融数据集上的应用与表现。在MNIST数据上，基于密度的聚类方法如DBSCAN和HDBSCAN效果不佳，多数样本被标记为离群点，准确率仅为24%左右，远低于传统方法；而在借贷俱乐部数据中，通过数据清洗、特征工程和标准化处理后，K-means与层次聚类能够有效识别借款人分组结构，并以贷款等级作为代理标签评估聚类同质性。文章还展示了完整的数据预处理流程、聚类效果分析方法及可视化策略，最后总结了聚

1、数据聚类：理论、算法与应用

github5actions的博客

05-15

本文详细介绍了聚类分析的基本概念、常用术语以及其在不同领域的应用。从定义、词汇和聚类过程到具体算法与技术细节，文章全面探讨了聚类的核心思想和实践方法。同时，通过实际案例展示了聚类分析在基因表达数据等场景中的应用步骤和技术选择。无论是初学者还是研究人员，都能从中获得有价值的参考信息。

3.MNIST数据集分类

booze_的博客

07-05

5471

大多数示例使用手写数字的MNIST数据集。该数据集包含60,000个用于训练的示例和10,000个用于测试的示例。每一张图片包含28*28个像素，在MNIST训练数据集中是一个形状为[60000,28,28]的张量，我们首先需要把数据集转成[60000,784],然后才能放到网络中训练。第一个维度数字用来索引图片，第二个维度数字用来索引每张图片中的像素点。一般我们还需要把图片中的数据归一化0~1之间。 MNIST数据集的标签是介于0-9的数字，我们要把标签转化为"one-hotvectors"。一个o

聚类算法：高斯混合模型与EM算法

kkchenjj的博客

07-14

1344

高斯混合模型是一种概率模型，用于表示由多个高斯分布组成的混合分布。在聚类中，GMM假设数据来自多个不同的高斯分布，每个分布代表一个簇。GMM可以处理数据的不确定性，因为它不仅考虑了数据点的分布，还考虑了数据点属于不同簇的概率。EM算法是一种强大的统计学习工具，尤其在处理含有隐变量的模型时表现出色。通过理解和掌握EM算法的步骤、收敛性以及优缺点，可以更有效地将其应用于实际的聚类分析和模型拟合问题中。

深入理解MNIST数据集：手写数字识别的经典基准

weixin_28988985的博客

06-15

1300

MNIST（Modified National Institute of Standards and Technology）数据集是由美国国家标准与技术研究院（NIST）提供的一个大型手写数字数据库，广泛用于机器学习和计算机视觉领域的研究和教育。它包含数以万计的手写数字图片，这些图片被归一化到统一的尺寸，以便于各种算法的处理和分析。在处理像MNIST这样的手写数字识别任务时，存在多种模型可以应用。理解每种模型的原理和特点，将有助于我们选择和构建最适合问题的解决方案。

Fashion-MNIST数据集--图像数据集

m0_62865498的博客

05-06

4182

Fashion-MNIST是一个包含了10个类别、每个类别下有7000张28x28像素灰度图像的数据集。这个数据集可以用于图像分类、图像识别等任务。处理这种图像数据集可以采用以下步骤：数据预处理：将数据集中的图像转换为数字矩阵形式，可以使用Python中的NumPy库进行处理。同时可以将像素值归一化到0-1范围内，方便后续处理。特征提取：对于图像数据集，常用的特征提取方法包括灰度共生矩阵、局部二值模式、方向梯度直方图等。这些特征可以帮助我们更好地描述和区分不同的图像类别。

聚类算法在MNIST数据集上的应用与评估

# 聚类算法在MNIST数据集上的应用与评估在数据挖掘和机器学习领域，聚类算法是一种重要的无监督学习方法，用于将数据集中的样本分组为不同的簇。本文将详细介绍三种常见的聚类算法：k-means、层次聚类...

聚类算法在MNIST数据集上的应用与分析

本文将详细介绍三种主要的聚类算法：k-means、层次聚类和 DBSCAN，并通过 MNIST 数字数据集进行实验，展示它们的性能和特点。 #### 1. k-means 聚类算法 k-means 是一种广泛使用的聚类算法，它通过迭代的方式将数据...

Lua非空判断方法[源码]

11-24

本文详细介绍了在Lua中进行非空判断的几种方法，特别是针对table类型的变量。首先，文章指出了直接对nil值进行索引会导致异常的问题，并给出了一个简单的例子来说明如何避免这种情况。接着，文章讨论了如何判断一个table是否为空，指出不能简单地使用`#table == 0`的方式，而是应该使用`next(t) == nil`的方法。此外，文章还提到了`next`指令在LuaJIT中的优化问题，建议在非必要情况下少用。最后，文章简要介绍了如何判断一个字符串是否全部由空格组成，使用了正则匹配的方法。这些内容对于Lua开发者来说非常实用，能够帮助他们避免常见的错误。

JS表格转Excel实现[可运行源码]

11-24

该文章详细介绍了如何使用JavaScript将HTML表格数据导出为Excel文件。内容涵盖了针对不同浏览器的兼容性处理，包括IE和非IE浏览器的不同实现方式。对于IE浏览器，使用ActiveXObject进行导出；对于非IE浏览器，则通过base64编码和数据URI方案实现。文章还提供了完整的代码示例，包括表格数据的处理、格式化和导出功能，支持文本和图片类型的数据导出。

图片转bin文件存储[项目代码]

11-24

本文介绍了在OpenCV项目中如何将大量图片数据转换为二进制（bin）文件进行高效存储和读取的方法。作者在项目中遇到需要处理大量图片数据的问题，尝试了多种格式（如.mat、.txt、.yml）后发现效率较低。通过使用二进制文件存储，显著提升了读写速度。文章详细展示了使用OpenCV将图片写入二进制文件的代码示例，以及从二进制文件读取图片数据的实现方法。虽然该方法需要提前知道图片的尺寸和数量，但读写速度极快，适合处理大量图片数据。作者还提到可以通过换行符或终止符优化读取过程，但未深入探讨。

ROS视觉处理与色彩识别[项目源码]

11-24

本文详细介绍了在ROS环境下进行视觉处理的基础步骤，特别是针对色彩识别的实现方法。内容涵盖了从摄像头驱动的安装与配置（如usb_cam驱动和image_view工具的使用），到创建功能包和编写图像处理节点（包括RGB图像回调函数、HSV色彩空间转换、二值化处理及形态学操作）。此外，还演示了如何在仿真环境中获取图像，并通过OpenCV实现红色和绿色物体的识别与追踪。最后，文章提供了完整的代码示例和编译运行步骤，帮助读者快速上手ROS视觉处理项目。

Anaconda安装与使用指南[项目源码]

11-24

本文详细介绍了在Anaconda环境下安装和使用jupyter及numpy的步骤。首先，指导用户如何安装Anaconda并创建虚拟环境，然后详细说明了如何在虚拟环境中安装jupyter和numpy。接着，文章提供了多个numpy的练习示例，包括创建零向量、矩阵操作、归一化等。此外，还介绍了如何在Jupyter中完成numpy、pandas和matplotlib的例题，涵盖了从基础操作到实际应用的多个方面。最后，文章总结了实验过程中的经验，特别是在使用国内镜像源后下载速度的提升。

【动静障碍物】基于JPS算法（改进A）全局路径规划与DWA动态窗口局部避障的机器人自主导航混合控制算法（Matlab代码实现）

11-24

【动静障碍物】基于JPS算法（改进A）全局路径规划与DWA动态窗口局部避障的机器人自主导航混合控制算法（Matlab代码实现）内容概要：本文介绍了一种结合改进A*算法的JPS（跳跃点搜索）全局路径规划与DWA（动态窗口法）局部避障的混合控制算法，用于机器人在动静态障碍物环境下的自主导航。该算法通过JPS优化全局路径搜索效率，提升路径规划速度，并结合DWA实现实时动态避障，增强了机器人在复杂动态环境中的适应性和安全性。整个系统在Matlab平台上进行了代码实现与仿真验证，展示了良好的路径规划效果与避障性能。; 适合人群：具备一定机器人学、自动控制或路径规划基础知识的研究生、科研人员及从事智能机器人开发的工程技术人员。; 使用场景及目标：①应用于移动机器人在静态与动态障碍共存环境中的自主导航任务；②为研究高效全局规划与实时局部避障的融合策略提供技术参考与实现案例；③支持Matlab仿真环境下的算法验证与优化。; 阅读建议：建议读者结合Matlab代码深入理解JPS与DWA的集成逻辑，重点关注算法在路径最优性、计算效率与避障实时性之间的平衡设计，可进一步扩展至多机器人系统或复杂地形场景的应用研究。

Lua中loadstring应用[源码]