天池ML学习赛笔记(工业蒸汽量预测 )
一、赛题理解
1、赛题背景
火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。
2、赛题目标
经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量。
3、数据概览
可以自行在天池学习赛中报名,然后下载数据

3.1 数据说明
其中V0-V37的38个字段是特征变量,target字段是目标变量,测试数据集没有target字段,需要利用训练数据对模型进行训练,然后由测试数据预测目标变量。
3.2 评估指标
预测结果以均方误差MSE作为评判标准,计算公式如下:

其中,为真实值,
为预测值
MSE是衡量“平均误差”的一种较为方便的方法。MSE值越小,说明预测模型描述实验数据具有越高的准确度。在sklearn中可以直接调用mean_squared_error()函数计算MSE,方法如下:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test,y_predict)
3.3 赛题模型
3.3.1 回归预测模型

3.3.2 分类预测模型
没找到图,emmm
3.4 解题思路
本赛题中,需要根据提供的V0~V37共38个特征变量来预测蒸汽量的数值,其预测值为连续型数值变量,故此问题为回归预测求解。
回归预测模型使用的算法包括线性回归、岭回归、回归、决策树回归、梯度提升树回归。
本文解析了基于天池平台的工业蒸汽量预测赛题,介绍了赛题背景及目标,详细阐述了根据锅炉工况预测蒸汽量的具体任务,并概述了回归预测模型的选择依据及其评估方法。
477





