机器学习Task3:预测PM2.5值

Task描述:

现有两个数据集:train set 和 test set,train set 是气象站每个月前20天空气质量所有资料,test set 则是从剩下的资料中取样出来。

train.csv:每个月前20天每个小时的气象资料(每小时有18中测资),共12个月;

test.csv:从剩下的资料当中取样出连续的10小时为一笔,前9小时的所有资料数据当做feature,第10小时的PM2.5当做需要预测的值。一共取出240笔不重复的test data,请根据feature预测这240笔的PM2.5。

首先,看一下训练数据和测试数据:

train.csv

test.csv

1.读取数据

这是我第一次处理这种任务,在如何读取,处理csv文件上花了不少功夫。

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。

这里使用pandas库进行读取,具体可参考:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值