2024年最新【数学模型】灰色关联分析(1)，零基础学习大数据开发编程

最新推荐文章于 2025-03-19 14:47:28 发布

2401_84164527

最新推荐文章于 2025-03-19 14:47:28 发布

阅读量568

点赞数 4

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.youkuaiyun.com/2401_84164527/article/details/138845556

版权

程序员专栏收录该内容

185 篇文章

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

三、用于综合评价问题

3.1 正向化指标

3.2 对正向化后的矩阵进行预处理

3.3 将预处理后的矩阵每行取出最大值构成母序列(虚构的)

一、灰色关联分析概述

1.1 背景

一般的抽象系统,如社会系统、经济系统、农业系统、生态系统、教育系统等都包含有许多种因素，多种因素共同作用的结果决定了该系统的发展态势。人们常常希望知道在众多的因素中，哪些是主要因素，哪些是次要因素;哪些因素对系统发展影响大，哪些因素对系统发展影响小;哪些因素对系统发展起推动作用需强化发展,哪些因素对系统发展起阻碍作用需加以抑制;……这些都是系统分析中人们普遍关心的问题。例如,粮食生产系统，人们希望提高粮食总产量，而影响粮食总产量的因素是多方面的，有播种面积以及水利、化肥、土壤、种子、劳力、气候、耕作技术和政策环境等。为了实现少投入多产出，并取得良好的经济效益、社会效益和生态效益，就必须进行系统分析。

1.2 传统数理统计方法的不足之处

数理统计中的回归分析、方差分析、主成分分析等都是用来进行系统分析的方法。这些方法都有下述不足之处:

要求有大量数据,数据量少就难以找出统计规律;
要求样本服从某个典型的概率分布，要求各因素数据与系统特征数据之间呈线性关系且各因素之间彼此无关，这种要求往往难以满足;
计算量大，一般要靠计算机帮助;
可能出现量化结果与定性分析结果不符的现象，导致系统的关系和规律遭到歪曲和颠倒。

尤其是我国统计数据十分有限,而且现有数据灰度较大，再加上人为的原因，许多数据都出现几次大起大落，没有典型的分布规律。因此，采用数理统计方法往往难以奏效。
灰色关联分析方法弥补了采用数理统计方法作系统分析所导致的缺憾。它对样本量的多少和样本有无规律都同样适用，而且计算量小，十分方便，更不会出现量化结果与定性分析结果不符的情况。

**注：**数理逻辑方法才是主流，只不过本文介绍灰度关联。

1.3 灰色关联分析基本思想

灰色关联分析的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密。曲线越接近，相应序列之间的关联度就越大，反之就越小。

1.4 系统分析

相当于找那个自变量x对y的影响最大。

对一个抽象的系统或现象进行分析，首先要选准反映系统行为特征的数据序列,称为找系统行为的映射量，用映射量来间接地表征系统行为。例如，用国民平均接受教育的年数来反映教育发达程度，用刑事案件的发案率来反映社会治安面貌和社会秩序，用医院挂号次数来反映国民的健康水平等。有了系统行为特征数据和相关因素的数据，即可作出各个序列的图形，从直观上进行分析。

–参考刘思峰. 灰⾊系统理论及其应⽤(第五版)

二、应用1：系统分析

例题：

下表为某地区国内生产总值的统计数据(以百万元计)，问该地区从2000年到2005年之间哪一种产业对GDB总量印象最大。


年份	国内生产总值	第一产业	第二产业	第三产业
2000	1988	386	839	763
2001	2061	408	846	808
2002	2335	422	960	953
2003	2750	482	1258	1010
2004	3356	511	1577	1268
2005	3806	561	1893	1352

2.1 画出统计图

画图后得配上简单的分析 :

四个变量均呈上升的趋势
第⼆产业的增幅较为明显
第⼆产业和第三产业的差距在后三年相差增大
等等

2.2 确定分析数列

母序列(又称参考数列、母指标) : 能反映系统⾏为特征的数据序列。类似于因变量 Y , 此处记为 X。
子序列(又称⽐较数列、子指标) : 影响系统⾏为的因素组成的数据序列。类似于⾃变量X , 此处记为 $(x_{0},x_{1},...,x_{n})$ 。

在本例中国内⽣产总值就是母序列( $x_{0}$ ) , 第一二三产业就是子序列( $x_{1},x_{2},x_{3}$ )。

2.3 对变量进⾏预处理

两个目的：

去量纲
缩⼩变量范围简化计算

对母序列和子序列中的每个指标进行预处理 :

先求出每个指标的均值。
再用该指标中的每个元素都除以其均值。

预处理后：


年份	国内生产总值	第一产业	第二产业	第三产业
2000	0.7320	0.8361	0.6828	0.7439
2001	0.7588	0.8838	0.6885	0.7878
2002	0.8597	0.9141	0.7812	0.9292
2003	1.1025	1.0440	1.0237	0.9847
2004	1.2356	1.1069	1.2833	1.2363
2005	1.4013	1.2152	1.5405	1.3182