介绍用于机器学习的 Fashion-MNIST 数据集
为什么要研究数据集?
让我们首先思考一下为什么要花时间研究数据集的问题。数据是深度学习的主要成分,虽然作为神经网络程序员的任务是让我们的神经网络从我们的数据中学习,但我们仍然有责任了解我们实际用于训练的数据的性质和历史。
一般来说,计算机程序由两个主要组成部分:代码和数据。在传统编程中,程序员的工作是直接编写软件或代码,但在深度学习和神经网络中,所谓的软件就是网络本身,特别是网络在训练过程中自动出现的权重。
程序员的工作是监督和指导训练过程中的学习。我们可以将其视为一种间接编写软件或代码的方式。通过使用数据和深度学习,神经网络程序员可以生产出能够执行计算的软件,而无需编写明确执行这些计算的代码。
因此,数据在开发软件中的作用正在转变,我们可能会看到软件开发人员的角色也随之转变。
关注数据的考虑因素:
- 谁创建了数据集?
- 数据集是如何创建的?
- 使用了哪些转换?
- 数据集的意图是什么?
- 可能的意外后果?
- 数据集是否有偏见?
- 数据集是否存在伦理问题?
在实践中,获取和访问数据通常是深度学习中最困难的部分之一,因此在我们了解这个特定数据集时,请记住我们在这里看到的一般概念和想法。