一文搞定深度学习建模预测全流程

最新推荐文章于 2025-07-05 14:15:48 发布

孤舟独钓寒江

最新推荐文章于 2025-07-05 14:15:48 发布

阅读量1.5k

点赞数 32

CC 4.0 BY-SA版权

文章标签：深度学习人工智能

本文链接：https://blog.youkuaiyun.com/2301_81372374/article/details/143839655

本文详细地梳理及实现了深度学习模型构建及预测的全流程，代码示例基于python及神经网络库keras，通过设计一个深度神经网络模型做波士顿房价预测。主要依赖的Python库有：keras、scikit-learn、pandas、tensorflow（建议可以安装下anaconda包，自带有常用的python库）

一、基础介绍

机器学习

机器学习的核心是通过模型从数据中学习并利用经验去决策。进一步的，机器学习一般可以概括为：从数据出发，选择某种模型，通过优化算法更新模型的参数值，使任务的指标表现变好（学习目标），最终学习到“好”的模型，并运用模型对数据做预测以完成任务。由此可见，机器学习方法有四个要素：数据、模型、学习目标、优化算法。

深度学习

深度学习是机器学习的一个分支，它是使用多个隐藏层神经网络模型，通过大量的向量计算，学习到数据内在规律的高阶表示特征，并利用这些特征决策的过程。

keras简介

本文基于keras搭建神经网络模型去预测，keras是python上常用的神经网络库。相比于tensorflow、Pytorch等库，它对初学者很友好，开发周期较快。下图为keras要点知识的速查表（）：

二、建模流程

深度学习的建模预测流程，与传统机器学习整体是相同的，主要区别在于深度学习是端对端学习，可以自动提取高层次特征，大大减少了传统机器学习依赖的特征工程。如下详细梳理流程的各个节点并附相应代码：

2.1 明确问题及数据选择

2.1.1 明确问题

深度学习的建模预测，首先需要明确问题，即抽象为机器 / 深度学习的预测问题：需要学习什么样的数据作为输入，目标是得到什么样的模型做决策作为输出。

以预测房价为例，我们需要输入：和房价有关的数据信息为特征x，对应的房价为y作为监督信息。再通过神经网络模型学习特征x到房价y内在的映射关系。通过学习好的模型输入需要预测数据的特征x，输出模型预测Y。对于一个良好的模型，它预测房价Y应该和实际y很接近。

2.1.2 数据选择

深度学习是端对端学习，学习过程中会提取到高层次抽象的特征，大大弱化特征工程的依赖，正因为如此，数据选择也显得格外重要，其决定了模型效果的上限。如果数据质量差，预测的结果自然也是很差的——业界一句名言“garbage in garbage out”。

数据选择是准备机器 / 深度学习原料的关键，需要关注的是：

①数据样本规模：对于深度学习等复杂模型，通常样本量，

然而工程实践中，受限于硬件支持、标注标签成本等原因，样本的数据量通常是比较有限的，这也是机器学习的重难点。对于模型所需最少的样本量，其实没有固定准则，需要要结合实际样本特征、任务复杂度等具体情况（经验上，对于分类任务，每个类别要上千的样本数）。当样本数据量较少以及样本不均衡情况，深度学习常用到数据增强的方法，

② 数据的代表性：数据质量差、无代表性，会导致模型拟合效果差。需要明确与任务相关的数据表范围，避免缺失代表性数据或引入大量无关数据作为噪音。

③ 数据时间范围：对于监督学习的特征变量x及标签y，如与时间先后有关，则需要划定好数据时间窗口，否则可能会导致常见的数据泄漏问题，即存在了特征与标签因果颠倒的情况。

以预测房价任务为例，对数据选择进行说明：

收集房价相关的数据信息（特征维度）和对应房价（标签），以及尽量多的样本数。数据信息如该区域的繁华程度、教育资源、治安等情况就和预测的房价比较相关，有代表性。而诸如该区域“人均养的兔子数”类数据信息，对房价的预测就没那么相关，对于无代表性的数据特征的加入，主要会增加人工处理的成本、计算复杂度，还有可能引入了模型学习的噪音。
划定好数据时间窗口。比如我们可以学习该区域历史2010~2020年的房价，预测未来2021的房价（这是一个经典的时间序列预测问题，常用RNN模型）。但却不能学习了2021年或者更后面的未来房价、人口数等相关信息，反过来去预测2021年房价，这就是一个数据泄露的问题（模型都学习了与标签相关等未知的信息，还预测个啥？）。