QMNIST：重现经典，超越经典的手写数字数据集

邢娣蝶

于 2024-10-10 07:26:20 发布

阅读量556

点赞数 19

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_01064/article/details/142803293

QMNIST：重现经典，超越经典的手写数字数据集

qmnist The QMNIST dataset 项目地址: https://gitcode.com/gh_mirrors/qm/qmnist

项目介绍

在机器学习领域，MNIST数据集无疑是最经典的手写数字识别数据集之一。然而，由于原始MNIST数据集的预处理步骤已不可考，我们无法准确地将数据集中的字符与书写者ID关联，也无法恢复完整的60,000张测试图像。官方的MNIST测试集仅包含10,000张随机抽样的图像，这使得其在提供有意义的置信区间方面显得力不从心。

为了解决这一问题，QMNIST数据集应运而生。QMNIST数据集是从NIST Special Database 19中提取的原始数据生成的，旨在尽可能接近MNIST的预处理方式。通过一系列复杂的重建算法和匹配过程，QMNIST不仅恢复了MNIST的训练集，还重建了原本丢失的50,000张测试图像。

项目技术分析

QMNIST的重建过程涉及多个技术步骤：

初始重建算法：根据MNIST数据集的原始论文信息，开发初始的重建算法。
匈牙利算法匹配：使用匈牙利算法找到MNIST训练数字与重建训练数字之间的最佳配对，并通过视觉检查最差的匹配，尝试理解MNIST作者可能采取的不同处理方式。
算法迭代优化：不断尝试新的重建算法变体，匹配其输出与MNIST训练集中的最佳对应，并重复上述过程，直到重建结果足够接近。

最终，QMNIST的重建结果显示，60,000张重建训练数字中，有147张相对于MNIST的对应图像偏移了一个像素。通过计算L2距离和Linf距离，发现这些差异非常小，表明重建质量非常高。

项目及技术应用场景

QMNIST数据集的应用场景广泛，尤其适用于以下领域：

机器学习研究：作为MNIST的替代或补充数据集，QMNIST可以用于训练和测试各种机器学习模型，特别是深度学习模型。
图像识别：QMNIST的高质量重建图像可以用于开发和测试手写数字识别算法。
数据增强：QMNIST的扩展测试集可以用于数据增强，提高模型的泛化能力。

项目特点

QMNIST数据集具有以下显著特点：

高质量重建：通过复杂的重建算法和匹配过程，QMNIST的图像质量与MNIST非常接近，甚至在某些方面超越了原始MNIST。
扩展测试集：QMNIST不仅恢复了MNIST的训练集，还重建了原本丢失的50,000张测试图像，提供了更大的测试集，有助于更准确地评估模型性能。
详细标签信息：QMNIST提供了扩展的标签信息，包括字符类别、NIST HSF系列、书写者ID等，有助于更深入地分析数据集。
易于使用：QMNIST数据集的文件格式与MNIST兼容，可以直接使用现有的MNIST数据加载工具进行处理。

结语

QMNIST数据集的推出，不仅填补了MNIST数据集的历史空白，还为机器学习和图像识别领域的研究提供了新的工具和资源。无论你是机器学习研究者、开发者，还是数据科学家，QMNIST都将成为你不可或缺的利器。立即访问QMNIST项目主页，开始你的探索之旅吧！

qmnist The QMNIST dataset 项目地址: https://gitcode.com/gh_mirrors/qm/qmnist

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

邢娣蝶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。