李宏毅机器学习HW1——PM2.5 Regression

最新推荐文章于 2022-09-05 22:28:53 发布

JungleFish55

最新推荐文章于 2022-09-05 22:28:53 发布

阅读量887

点赞数 2

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/qq_38791961/article/details/102892523

版权

思路主要参考：https://www.cnblogs.com/HL-space/p/10676637.html

一、作业描述

数据集描述：

取12个月每个月前20天共240天的气象数据
每天的数据有18个指标

二、思路分析

2.1 数据预处理

利用pd.read_csv 读取标题行之外的数据

数据中共有很多NR数据，该指标RAINFALL 为是否降雨，将NR替换为0
在这里插入图片描述
如图所示，取每天从0时开始到8时的所有数据为训练数据，第9个小时的PM2.5值为label，以此类推，则每天共有15个label，240天共有240X15 = 3600个label

#数据预处理，取出每天24h的数据
def dataProcessing(df): 
    df = df.iloc[:,3:].replace(['NR'],[0.0]) #将空数据替换为0    
    array = np.array(df).astype(float) # astype转换array中的元素类型
    x_list = []
    y_list = []
    for i in range(0,4320,18):
        for j in range(0,15):
            mat = array[i:i+18,j:j+9]  #每一天中每10个小时的前9个小时当作参数
            label = array[i+9,j+9] #第10列是pm2.5的值，第10个小时的pm2.5作为label
            x_list.append(mat)   #插入参数和label列表
            y_list.append(label)
    x = np.array(x_list)
    y = np.array(y_list)
    return x, y