深度学习数据准备与处理指南
1. 深度学习基础与数据准备概述
在深度学习项目中,有两个基本决策至关重要:选择合适的运行环境和确定要解决的问题。运行环境的选择范围广泛,你可以使用本地系统来运行深度学习项目,也可以选择功能全面的云环境,如 Azure 或 AWS。此外,还有专门为深度学习设计的环境,像 Paperspace 和 Google Colab。
Pandas 是处理表格数据集的标准 Python 库。如果你熟悉 SQL,会发现 Pandas 能方便地完成你习惯用 SQL 进行的操作。过去,人们认为深度学习应用于结构化数据过于复杂,但如今,随着针对深度学习开发的环境变得更易获取、更好的深度学习框架不断涌现,以及面向非专业人士的深度学习教育的发展,这种观点已不像五年前那么有说服力。
在进行深度学习模型训练时,我们会遇到一些问题。例如,在测试集上,模型的混淆矩阵显示了预测的正确和错误情况。其中,混淆矩阵的底行表明,约 40% 的情况下,模型在实际有延误时预测无延误,这对用户来说是最糟糕的结果。为了获得更好的深度学习模型,我们需要思考如何改进。同时,要关注原始输入数据集和用于训练的清理后数据集之间的差异。
数据准备工作是深度学习的重要环节,主要包括以下几个方面:
- 使用 Python 中的配置文件。
- 将 XLS 文件导入 Pandas 数据框,并使用 pickle 保存数据框。
- 探索输入数据集。
- 将数据分类为连续、分类和文本类别。
- 纠正数据集中的差距和错误。
- 计算成功进行深度学习项目所需的数据量。
2. 数据探索与清理代码
相关代码存放在
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



