基于粒子群优化的集成学习森林火灾面积预测识别 博文底部vx获取

博客介绍了火灾面积数据处理与预测流程。先读取原始数据,查看基本统计信息,用直方图和箱线图展示火灾面积分布,处理离群点,进行OneHot编码和数据筛选。绘制散点图发现与部分指数无明显相关性,做Min - Max标准化,划分训练/测试集,用线性回归训练模型并预测,最后评估模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

流程:

1.读数据表

首先,我们读取原始数据。

XYmonthdayFFMCDMCDCISItempRHwindrainarea
75marfri86.226.294.35.18.2516.700
74octtue90.635.4669.16.718330.900
74octsat90.643.7686.96.714.6331.300
86marfri91.733.377.598.39740.20
86marsun89.351.3102.29.611.4991.800

2.字段基本统计信息

查看数据的基本统计信息。

XYmonthdayFFMCDMCDCISItempRHwindrainarea
样本数517517517517517517517517517517517517517
不同取值个数127
众数augsun
众数的频数18495
均值4.6692456484.299806576490.6446808511110.8723404255547.94003868479.021663442918.889168278544.28820116054.01760154740.021663442912.8472920696
标准差2.31377782871.2299004035.520110848964.0464822493248.06619170584.55947717525.806625349616.31746923941.79165260090.295959120963.6558184679
最小值1218.71.17.902.2150.400
下四分位数3490.268.6437.76.515.5332.700
中位数4491.6108.3664.28.419.342400.52
上四分位数7592.9142.4713.910.822.8534.906.57
最大值9996.2291.3860.656.133.31009.46.41090.84

从输出结果可以看出,该数据集一共有517条数据,包含13个变量,不存在缺失值。注意到 monthday这两个特征不是数值型的数据。

3.火灾面积分布直方图

我们采用更直观的方法,将数据集中火灾面积这一列的数据通过直方图和箱线图进行展示,来查看数据的分布情况:

4.火灾面积分布箱线图

从上图中我们可以看出,数据主要分布在0~200之间,但也有少量数据大于600,area数据中存在一些离群点。

5.删除火灾面积大于600的离群点

下面我们集中对刚刚发现的问题进行处理。首先,我们将数据集中火灾面积大于600的离群点去掉:

XYmonthdayFFMCDMCDCISItempRHwindrainarea
75marfri86.226.294.35.18.2516.700
74octtue90.635.4669.16.718330.900
74octsat90.643.7686.96.714.6331.300
86marfri91.733.377.598.39740.20
86marsun89.351.3102.29.611.4991.800

6.月份和星期OneHot编码

XYFFMCDMCDCISItempRHwindrainareamonth_augmonth_decmonth_febmonth_janmonth_julmonth_junmonth_marmonth_maymonth_novmonth_octmonth_sepday_monday_satday_sunday_thuday_tueday_wed
7586.226.294.35.18.2516.70000000010000000000
7490.635.4669.16.718330.90000000000010000010
7490.643.7686.96.714.6331.30000000000010010000
8691.733.377.598.39740.2000000010000000000
8689.351.3102.29.611.4991.80000000010000001000

7.筛选火灾面积大于0的数据

处理完毕后,我们将火灾面积大于0的数据筛选出来,查看火灾发生的面积与FWI系统的FFMC指数、DMC指数、DC指数、ISI指数之间的关系。

XYFFMCDMCDCISItempRHwindrainareamonth_augmonth_decmonth_febmonth_janmonth_julmonth_junmonth_marmonth_maymonth_novmonth_octmonth_sepday_monday_satday_sunday_thuday_tueday_wed
9985.848.3313.43.918422.700.3600001000000000010
1491129.5692.6721.7382.200.4300000000001000010
2590.9126.5686.5721.9391.800.4700000000001100000
1295.599.9513.313.223.3314.500.5510000000000000001
8690.1108529.812.521.2518.900.6110000000000000000

8.火灾面积与DMC散点图

我们分别绘制火灾发生的面积与DMC指数、DC指数、ISI指数、FFMC指数之间的散点图:

9.火灾面积与DC散点图

10.火灾面积与ISI散点图

11.火灾面积与FFMC散点图

从上面的散点图中,我们发现火灾发生的面积与FFMC指数、DMC指数、DC指数、ISI指数之间并没有明显的相关性。

12.Min-Max标准化

我们使用MinMaxScaler方法,对数据集中除了XYmonthday之外的列做MinMax标准化,使得处理后的数据取值分布在[0,1]区间上。

XYFFMCDMCDCISItempRHwindrainareamonth_augmonth_decmonth_febmonth_janmonth_julmonth_junmonth_marmonth_maymonth_novmonth_octmonth_sepday_monday_satday_sunday_thuday_tueday_wed
750.8709680.0864920.1013250.0909090.1929260.4235290.70000000010000000000
740.9277420.1181940.7754190.119430.5080390.2117650.0555560000000000010000010
740.9277420.1467950.7962940.119430.3987140.2117650.10000000000010010000
860.9419350.1109580.0816230.1604280.1961410.9647060.40.03125000000010000000000
860.9109680.1729840.110590.1711230.295820.9882350.1555560000000010000001000

13.训练/测试集划分

在训练模型之前需要将数据集划分为训练集和测试集,用训练集训练模型,用测试集评估模型。其中训练集占80%,测试集占20%:

14.线性回归

我们使用线性回归训练模型,以下是训练好的模型的系数和截距:

系数

XYFFMCDMCDCISItempRHwindrainmonth_augmonth_decmonth_febmonth_janmonth_julmonth_junmonth_marmonth_maymonth_novmonth_octmonth_sepday_monday_satday_sunday_thuday_tueday_wed
-0.001616-0.0021820.0836780.101768-0.184492-0.0517790.017139-0.013061-0.002276-0.0065020.0517130.080332-0.00888-0.0529280.0256390.014181-0.029920.030859-0.0426220.1068280.097483-0.0011680.0205130.011736-0.0102680.026505-0.000168

截距

-0.013356

15.模型预测

然后用训练的模型在测试集上进行火灾面积的预测,预测结果保存为area_predict

XYFFMCDMCDCISItempRHwindrainmonth_augmonth_decmonth_febmonth_janmonth_julmonth_junmonth_marmonth_maymonth_novmonth_octmonth_sepday_monday_satday_sunday_thuday_tueday_wedareaarea_predict
250.97032258060.58097863540.47367186580.21925133690.68167202570.29411764710.655555555600000100000000100000.0578037682
340.93806451610.48690558240.69602439310.18894830660.56591639870.28235294120.555555555601000000000000100000.0311150413
740.920.13921433490.79125131930.15508021390.29260450160.52941176470.555555555600000000001000000000.0074082892
560.93161290320.43211578220.79582502640.12477718360.40192926050.64705882350.355555555600000000000110000000.0280614525
120.92903225810.27498277050.42265744110.29946524060.40514469450.74117647060.844444444400000100000000000000.0138849822

16.回归模型评估

指标取值
均方误差(MSE)0.02704
平均绝对误差(MAE)0.069272
决定系数(R2)-0.059488
中位绝对误差0.023784
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员奇奇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值