7、深度学习数据准备与处理指南

最新推荐文章于 2025-11-25 14:31:30 发布

vim8coder

最新推荐文章于 2025-11-25 14:31:30 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习解锁结构化数据文章标签：深度学习数据准备 Pandas

本文链接：https://blog.youkuaiyun.com/vim8coder/article/details/151170091

深度学习解锁结构化数据专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习数据准备与处理指南

1. 深度学习基础与数据准备概述

在深度学习项目中，有两个基本决策至关重要：选择合适的运行环境和确定要解决的问题。运行环境的选择范围广泛，你可以使用本地系统来运行深度学习项目，也可以选择功能全面的云环境，如 Azure 或 AWS。此外，还有专门为深度学习设计的环境，像 Paperspace 和 Google Colab。

Pandas 是处理表格数据集的标准 Python 库。如果你熟悉 SQL，会发现 Pandas 能方便地完成你习惯用 SQL 进行的操作。过去，人们认为深度学习应用于结构化数据过于复杂，但如今，随着针对深度学习开发的环境变得更易获取、更好的深度学习框架不断涌现，以及面向非专业人士的深度学习教育的发展，这种观点已不像五年前那么有说服力。

在进行深度学习模型训练时，我们会遇到一些问题。例如，在测试集上，模型的混淆矩阵显示了预测的正确和错误情况。其中，混淆矩阵的底行表明，约 40% 的情况下，模型在实际有延误时预测无延误，这对用户来说是最糟糕的结果。为了获得更好的深度学习模型，我们需要思考如何改进。同时，要关注原始输入数据集和用于训练的清理后数据集之间的差异。

数据准备工作是深度学习的重要环节，主要包括以下几个方面：
- 使用 Python 中的配置文件。
- 将 XLS 文件导入 Pandas 数据框，并使用 pickle 保存数据框。
- 探索输入数据集。
- 将数据分类为连续、分类和文本类别。
- 纠正数据集中的差距和错误。
- 计算成功进行深度学习项目所需的数据量。