第一版本 无附录 34页 18488字 7*5*3*3=315种方案选择
问题1 多元线性回归 ARIMA模型 随即森林优化模型
问题2 梯度提升 XGboost
问题3 梯度提升预测模型
问题4 Lasso
摘要
“宠物陪伴”在中国的流行而逐渐拥有了广阔且快速增长的市场。因此,分析宠物行业的发展趋势及市场需求,以及根据分析和当前的经济环境,为中国宠物行业的发展提出相应的战略建议至关重要。
针对问题1,首先对数据进行预处理,由于题目所给数据量较少,因此先从统计局等网站收集相关数据数据,并对数据进行清洗,填充缺失值,去除异常值。然后进行相关性分析,采用斯皮尔曼系数大致了解相关性,用随机森林进行细化,建立模型分析中国宠物行业发展影响最大的五个因素。最后建立ARIMA、随机森林改进模型和多元线性回归三个模型并进行对比,选择最优模型随机森林来预测未来三年中国宠物行业的发展。
问题2要求分析全球宠物行业(按宠物种类:猫和狗)的发展趋势,并预测未来三年全球宠物食品的需求,首先进行数据预处理,收集相关数据并将来自中国、美国、法国、德国的数据合并成一个全球宠物行业的数据集,然后构建梯度提升回归模型和XGboost模型预测未来三年四个国家对宠物食品的需求,最后整合为全球预测结果。
针对问题3,要求分析中国宠物食品行业的生产与出口情况,并预测未来三年的发展。结合全球宠物食品市场的需求趋势以及中国的发展情况,增加差分特征,使用梯度提升模型和超参数调优对生产和出口分别进行预测,性能通过均方误差(MSE)来评估,以确保预测值的合理性。
针对问题4,要求分析外国经济政策对中国宠物食品行业的影响,并提供可持续发展战略。首先采集关税税率等政策,使用LASSO和交叉验证定量分析各个变量的影响与相关程度,最终基于这四个问题指定中国宠物食品行业的可持续发展可行的策略。
一、问题求解与分析
4.1 问题1求解与分析
4.1.1 问题1分析
针对问题1,首先对数据进行预处理,由于题目所给数据量较少,因此先从统计局等网站收集相关数据数据,并对数据进行清洗,填充缺失值,去除异常值。然后进行相关性分析,采用斯皮尔曼系数大致了解相关性,用随机森林进行细化,建立模型分析中国宠物行业发展影响最大的五个因素。最后建立ARIMA、随机森林改进模型和多元线性回归三个模型并进行对比,选择最优模型随机森林来预测未来三年中国宠物行业的发展。
4.1.2 问题1建模与求解
1、数据预处理
1.1 数据收集与准备
为了分析中国宠物行业的发展及其影响因素,我们收集了中国2019年至2023年的宠物行业相关数据。将附件1给出的数据进行可视化,了解数据的分布以及趋势,数据包括猫和狗的数量(单位为万只),如图1所示。在这五年(2019年到2023年)间,蓝色部分逐渐增大,而绿色部分逐渐减小。这表明猫的比例在逐年增加,而狗的比例在逐年减少。也就是说从2019年到2023年,猫的比例呈现逐年增加的趋势,说明饲养猫的人越来越多。相对的,狗的比例则逐年下降,表明饲养狗的家庭相对减少,或者狗的数量增长速度低于猫。
显然仅有上述数据是不够的,因此在一些网站上采集了其他可能影响宠物行业发展的社会经济因素,比如中国宠物食品总产值(人民币),中国宠物食品出口总值(美元),宠物市场规模(亿美元)等,数据收集完成后,我们对数据进行了清洗和整理,确保特征和目标变量无缺失或异常值。
1.2 相关性分析
为了找出与中国宠物行业发展最相关的影响因素,我们首先对各个特征与目标变量(即猫和狗的数量)进行了斯皮尔曼相关性分析。斯皮尔曼相关性是一种非参数检验方法,适用于分析数据之间的单调关系,特别适合存在非线性关系的数据。它是衡量两个变量的相关性的非参数指标。它利用单调函数评价两个统计变量的相关性。若数据中没有重复值,且当两变量完全单调相关时,斯皮尔曼相关系数为+1或−1。
我们计算了所有特征与目标变量之间的斯皮尔曼相关系数,并以热力图的形式进行可视化,以更直观地展示各个因素的相关性。由于指标有很多,热力图不便于完全展示,这里仅仅选取了十几个指标进行观察,为了找到中国宠物行业发展的重要影响因素,这里建立随机森林模型分析特征重要性,以中国宠物猫狗数量为因变量分析,反映未来市场的变化趋势和潜在的增长空间,找到了影响最大的五个因素,然后分析中国宠物行业发展的影响最大的五个因素,影响最大的五个因素如表1和表2所示,可视化结果如图3所示。
在随机森林建立过程中,生成的部分树如图5所示。
表1
Feature | Cats Importance | Dogs Importance |
总税率 (占商业利润的百分比) | 0.130597 | 0.181137 |
中国宠物食品总产值 (人民币) | 0.107714 | 0.124633 |
基尼 (GINI) 系数 | 0.101656 | 0.095881 |
宠物食品开支 (亿美元) | 0.094405 | 0.057406 |
农村人口 | 0.089761 | 0.072159 |
表2
Feature | Cats Importance | Dogs Importance |
总税率 (占商业利润的百分比) | 0.130597 | 0.181137 |
中国宠物食品总产值 (人民币) | 0.107714 | 0.124633 |
人均 GDP (现价美元) | 0.062375 | 0.102648 |
基尼 GINI) 系数 | 0.101656 | 0.095881 |
食品生产指数 | 0.084467 | 0.072211 |
随机森林选择特征的建立过程部分展示:
2、建立预测模型
为了预测未来三年(2024-2026年)中国宠物行业的发展情况,我们采用了三种不同的方法进行建模和预测:
(1)ARIMA 时间序列模型:用于捕捉数据的时间序列趋势和季节性特征。适合捕捉数据的时间序列特征,尤其是在数据具有明显趋势或季节性时。
(2)随机森林回归优化模型:随机森林是一种基于集成学习的非线性模型,能够处理复杂的特征之间的交互。能够捕捉特征之间的复杂关系,预测结果对于非线性数据具有较高的精度。在此基础上,加入了留一法交叉验证进行优化,进一步提升模型预测的准确率。
(3)多元线性回归模型:用于分析各影响因素之间的线性关系,并进行未来趋势预测。能够提供各个特征对目标变量的线性解释,但对于非线性关系可能效果不佳。
2.1 ARIMA模型求解
(1)ARIMA模型原理
ARIMA模型由三个主要部分组成:自回归 (AR)、差分 (I) 和滑动平均 (MA)。其完整形式可以表示为ARIMA ,其中参数 分别代表自回归阶数、差分阶数和滑动平均阶数。
自回归AR:自回归部分描述了序列当前值与其过去值之间的关系。它假设当前值可以由过去的值加上一些随机误差来描述。自回归模型的阶数 p 决定了要参考多少个历史值。AR(p) 表示序列的当前值是前 p 个过去值的线性组合。数学表示如下:
(2)ARIMA模型预测求解
ARIMA 模型需要输入平稳的时间序列数据,因此我们首先对猫和狗的数量进行了平稳性检测(ADF 检验),并对非平稳的数据进行差分处理直到其满足平稳性的要求。首先可以看到猫和狗的数据不是平稳的,因此不能直接采用ARIMA模型进行处理,所以要对数据进行差分操作,一阶差分之后,可以看到狗的数据是平稳的,但是猫的数据仍然是非平稳的,因此还要对猫的数据进行二阶差分处理。一阶差分后得到的结果如下所示:
Cats p-value (Diff): 0.42811060946796686
猫数据的一阶差分仍然非平稳
Dogs ADF Statistic (Diff): -6.142011812079186
Dogs p-value (Diff): 7.929541291227802e-08
狗数据的一阶差分是平稳的
在处理完毕之后,针对猫和狗的数据分别建立 ARIMA 模型,对未来三年进行预测。预测结果如下所示。
Cats Forecast (2024-2026): [7647.15363209 8295.50444178 8945.43956864]
Dogs Forecast (2024-2026): [5014.4923516 5169.36835894 5019.92639846]
Standard Deviation (Normalized) - Cats: 0.3778613945734487
Standard Deviation (Normalized) - Dogs: 0.38937160021701045
2.2 随机森林回归优化模型求解
(1)随机森林回归优化模型原理
随机森林是一种集成学习方法,具体来说是装袋法(Bagging,Bootstrap Aggregating)的一种应用。它通过训练多棵决策树来进行预测,并结合
4.2 问题2求解与分析
4.2.1 问题2分析
问题2要求分析全球宠物行业(按宠物种类:猫和狗)的发展趋势,并预测未来三年全球宠物食品的需求,首先进行数据预处理,收集相关数据并将来自中国、美国、法国、德国的数据合并成一个全球宠物行业的数据集,然后构建梯度提升回归模型和XGboost预测未来三年四个国家对宠物食品的需求,最后整合为全球预测结果。
4.2.2 问题2建模与求解
问题2需要基于提供的数据和收集的额外数据,分析全球宠物行业(中国、美国、法国、德国)按宠物类型的发展情况,构建适当的数学模型来预测未来三年(2024-2026年)的宠物食品需求。
1、数据收集与准备
根据提供的附件2中的数据,以及收集到的额外数据,我们涵盖了包括美国、法国、德国等主要海外国家的宠物数量变化情况。原始附件2中的数据可视化如图8所示(加入中国),根据可视化结果,可以看出不同国家中宠物猫和狗的数量呈现不同的增长趋势。其中,美国的宠物数量相对较多,而法国和德国的宠物数量相对较为平稳,但略有增长。
将原始附件2和收集到的额外数据进行清理和整合,过程如下:
(1)将来自中国、美国、法国、德国的数据合并成一个全球宠物行业的数据集。各国的数据将以宠物数量(猫和狗)、宠物食品市场规模、宠物食品出口总值等关键特征来整合。
(2)处理缺失值:对各国的数据中的缺失值,采用合适的填补方法,例如均值填补或使用插值法。
(3)数据标准化/归一化:由于各国的数据范围不同,可能导致数据的量纲差异较大。可以通过归一化或标准化使得模型更易于处理这些数据。