7、深度学习数据准备与处理指南

深度学习数据准备与处理指南

1. 深度学习基础与数据准备概述

在深度学习项目中,有两个基本决策至关重要:选择合适的运行环境和确定要解决的问题。运行环境的选择范围广泛,你可以使用本地系统来运行深度学习项目,也可以选择功能全面的云环境,如 Azure 或 AWS。此外,还有专门为深度学习设计的环境,像 Paperspace 和 Google Colab。

Pandas 是处理表格数据集的标准 Python 库。如果你熟悉 SQL,会发现 Pandas 能方便地完成你习惯用 SQL 进行的操作。过去,人们认为深度学习应用于结构化数据过于复杂,但如今,随着针对深度学习开发的环境变得更易获取、更好的深度学习框架不断涌现,以及面向非专业人士的深度学习教育的发展,这种观点已不像五年前那么有说服力。

在进行深度学习模型训练时,我们会遇到一些问题。例如,在测试集上,模型的混淆矩阵显示了预测的正确和错误情况。其中,混淆矩阵的底行表明,约 40% 的情况下,模型在实际有延误时预测无延误,这对用户来说是最糟糕的结果。为了获得更好的深度学习模型,我们需要思考如何改进。同时,要关注原始输入数据集和用于训练的清理后数据集之间的差异。

数据准备工作是深度学习的重要环节,主要包括以下几个方面:
- 使用 Python 中的配置文件。
- 将 XLS 文件导入 Pandas 数据框,并使用 pickle 保存数据框。
- 探索输入数据集。
- 将数据分类为连续、分类和文本类别。
- 纠正数据集中的差距和错误。
- 计算成功进行深度学习项目所需的数据量。

2. 数据探索与清理代码

相关代码存放在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值