数学建模札记——评价模型的灰色关联分析
不过我这里只能简单介绍一下,更深入的原理可能需要我专门研究一下才能表达清楚。但是,应用起来并不难。如果有些原理没有理解清楚,应该不影响使用。就当是了解了一个新方法吧。
其实后面的学习,比如多元回归分析,运筹学相关,时间序列分析,各种预测模型,聚类分类等。,涉及许多困难的数学推导。即使我自己理解和学习了一些东西,我也需要更长的时间才能简单、轻松地表达出来。所以目前写学习笔记的时候,只能简单的说明一下原理,然后再来说说那个愚蠢的应用。等我有了更深入的了解,再回去刷新那些写得不深入不清晰的文章。
好了,言归正传,来说说灰色关联分析吧~
“在系统开发过程中,如果两个因素的趋势一致,即同步变化程度高,就可以说两个因素高度相关;反之,则更低。因此,灰色关联分析法是根据因素之间发展趋势的相似或相异程度来衡量因素之间关联程度的一种方法,即“灰色关联度”。
以上内容摘自百度,大概就是这么回事。灰色关联分析的研究对象往往是一个系统。系统的发展会受到很多因素的影响。我们常常想知道,在众多影响因素中,哪些是主要因素,哪些是次要因素;哪些因素影响大,哪些因素影响小;哪些有促进作用,哪些有抑制作用等等。
数理统计中常用回归分析、方差分析和主成分分析来探讨这个问题。但是上述方法都有一些缺点。比如这些方法需要大量的数据,数据少了结果就没有意义;有时要求样品服从特殊分布,或者定量结果与定性分析不一致。灰色关联分析能较好地处理这一问题。
灰色关联分析对样本数量和样本的规律性没有要求(当然样本量不能太小,两三个样本即可),定量结果与定性分析基本一致。灰色关联分析的基本思想是根据系列曲线几何形状的相似性来判断它们是否密切相关。曲线形状越接近,相应序列之间的相关性越大,反之亦然。
好了,上面原理的一个简单翻译就是研究由两个或两个以上序列(序列可以理解为系统中的因子或指标)组成的曲线的几何相似性。它们越相似,它们的变化关系就越密切,即相关程度高。因此,这种方法几乎是从纯数据的角度来研究相关性的。如果两个不相关的指标曲线形状非常相似,那么灰色关联分析就会认为两个指标高度相关。当然,这只是一个极端的例子。对于一般的数据或系统,用曲线的形状来衡量相关程度是合理的。
先介绍第一个应用,也是它的基础应用,系统分析。其分析的主要内容是将“影响系统发展的因素”按重要性或影响力进行排序。用灰色关联分析来说,就是给出各因素与整个系统关联程度的排序。关联度越高,相应因素对系统发展的影响越大。至于相关程度,就是上面说的曲线形态的近似程度。嗯,其实灰色关联分析可以模糊理解,但是感觉有点不靠谱hhh。
我们直接举个例子来说明应用灰色关联分析的方法。(原理已经解释过了。)
下表为某地区GDP统计数据(单位:百万元)。要问2000年到2005年,哪个行业对这个地区的GDP总量影响最大?
不,这是典型的系统分析问题,找出一个对GDP发展影响最大的因素。那么我们需要做什么呢?想一想,灰色关联分析的原理是,要比较系列曲线的几何形状的相似性,当然要先画出系列曲线。嗯,第一步是画序列曲线。
这里需要注意的是,如果要研究各种因素与系统整体的相关性,需要找到一个能够代表系统整体发展的指标,这个指标就是GDP。同样,如果要反映教育发展的程度,可以用国民受教育的平均年限来表示;如果要反映社会治安,可以用刑事案件的发生率来表达;反映国民健康水平,可以用医院挂号数量来表示。无论如何,总是需要找到一个指标来描述系统的整体发展。
别的不说,单看曲线的形状,我觉得第一产业对GDP的影响最小。GDP一直往上走,第一产业曲线形状几乎是平的。单看相似度,似乎第二产业,也就是灰色曲线与GDP曲线最相似。但是,绘制图像只是为了给出直观的感受和分析,曲线形状的近似程度还是需要计算的。
第二步是确定分析顺序。分析序列可分为两类,一类称为母序列,是反映系统整体行为特征或发展的数据序列。可以理解为回归分析中的因变量,这是GDP这一栏。另一类叫做子序列,即影响系统发展的因素组成的数据序列,在回归分析中可以理解为自变量。这里分别是第一产业、第二产业、第三产业的GDP数据。
第三步是数据预处理。我们讲了很多预处理,比如归一化,标准化,规范化等等。这里预处理的目的是去除维度的影响,缩小数据范围,方便计算。这往往就是数据标准化的作用。数据标准化的方法有很多,比如标准化,即原始数据减去均值除以方差,常用于随机变量;再比如标准化,就是。这两种方法之前都提到过。
那么在这里,我们使用的标准化方法是每个元素除以对应指标的平均值,也就是。好了,我们来展示一下处理后的数据。用excel处理就行了,比较方便。
第四步是计算处理后的子序列中的每个元素与父序列中相应元素之间的相关度。请记住,母序列是,子序列是,,。我们先计算母子序列的最小差,再计算母子序列的最大差。计算如下。
嗯,可以发现上表中最小的元素就是上表中最大的元素。然后我们可以计算子序列中的每个元素与父序列中相应元素之间的相关度。
在灰色关联分析中,定义,其中是分辨系数,通常位于之间,经常采取。至于为什么要用这样的公式来定义子序列的一个元素和父序列的对应元素的相关程度?我不知道...好吧,你自己去查。如果你知道,请留言告诉我。谢谢大家!
第五步,计算各序列之间的相关性,即指数与系统整体的相关性。我们定义并使用它来表达一个指标与系统整体发展的相关性。
好了,其实就是第四步,获取指标中的每个元素与父序列中对应元素的相关程度。通过对它们进行平均,可以将其视为指标与系统整体的相关程度。如果你能接受上述计算关联度的公式,那么接受关联度的平均值应该不会太难。
上图是这个问题的最终计算结果。计算证明,当分辨系数为0.5时,第三产业对GDP的影响最大。好像和那张照片不太相符...毕竟从图片上直观来看,应该是第二产业的曲线形态最接近GDP的曲线形态,结果就是第三产业。好吧,让我们试试另一个。
经过一些操作,第三产业对GDP的影响最大。但还是那句话,在实际使用中是最常用的。
如果要强行解释一波,大概就是GDP增速波动,2002-2005年各条折线的斜率不同,而2002-2005年第二产业基本上是直线运行。相比之下,第三产业的增长和变化更像是GDP的变化...好吧,它被迫解释。
上图为年增量...嗯,好像灰色和蓝色比较相似,但是2003年到2005年的增量,也就是2002年到2005年这四年第三产业和GDP的增长比较相似。第二产业也只是一两年类似,所以整体来看,可能是第三产业对GDP的影响更大。
好了,强行解释结束了。
最后,有两个关于系统分析的问题。
好了,系统分析到此为止。
灰色关联分析在综合评价中的核心是通过各指标的关联度来确定各指标的权重,然后对权重求和得分。
或者这二十条河。评价水质,灰色关联分析应该怎么做?
第一步是转发所有指标。正向处理,你知道是什么,就是把所有极小的、中间的、区间的指标转换成最大的指标。也就是说,数据值越大,最终得分越高。
第二步是标准化正向矩阵。这里的标准化和上面系统分析的标准化是一回事。也就是用每个元素除以对应指标的平均值,缩小数据范围,消除量纲影响。经过上述两步处理的矩阵被记录为
步骤3,从归一化预处理后的矩阵的每一行中取出一个最大值作为母序列。好了,这就是灰色关联分析用于综合评价时要注意的一点,就是人为构造这样一个母序列。
第四步,根据上述方法,计算各指标与母序列的灰色关联度,记为。
第五步,计算各指标的权重。每个指标的权重。即相关度占整体相关度总和的比例。
第六步,我们得到每个评价对象的分数。对于评价对象,其得分。这里,也就是上面提到的正向标准化矩阵。中的每个指标都是一个最大值指标,值越高得分越高,消除了维度的影响。所以我们直接把in中的元素作为每个评价对象在每个指标下的得分,然后对每个指标的得分进行加权求和。权重就是我们用上面的灰色关联度得到的权重。就这样,我们得到了最后的分数。
第七步,将分数归一化。这样就可以把所有的分数放在0-1之间。归一化的好处是此时的分数可以解释为对应的研究对象在整体研究对象中所占的百分比,也就是位置。在水质这个话题上,也就是一条河流的水质在所有河流中的位置。好吧,说的通俗一点,类似于“你的成绩已经超过了同学的xx%”。这就是正常化的目的。
下图为水质评价,以及TOPSIS法和灰色关联分析的结果。
大家可以看到,这两种方法在这个问题的最终排名上是不一样的。取第一名的方法不一样,中间部分的顺序也不一样,但总体上还是比较相似的。Hhh,不如用另一种层次分析法对三种方法得到的归一化分数进行平均,作为最终排名的依据。嗯,看看这个模型,是不是一下子就复杂了?
好了,这篇文章就到这里。其实还有一些令人费解的问题没有解决。
后两者似乎可以强行解释,因为我们把归一化和标准化后的矩阵看作一个得分矩阵,所以我们取每一行的最大值来构造系统的最优得分序列,每一个方案就相当于系统的一个开发。计算关联度后,就是看指标对系统最优序列的影响程度。影响力越大,我们给它的权重就越大...好吧,强行解释。
对于以上三个问题,如果谁有更好的想法,希望可以留言告诉我。现在我在这里感谢你!如果以后慢慢理解了,我会在文章里更新的。(不过在微信微信官方账号可能更新不了,知乎和both都可以。)
灰色关联分析,我能分享的就这么多。如果想继续了解,可以看《灰色系统理论及其应用》,刘思峰在等。嗯,灰色系统还有诸如灰色系统预测、灰色组合模型、灰色决策、灰色聚类评估等应用。看看就可以了。
这两天,知乎给我推了一些数学建模相关的问答,其中有一本是数学建模相关的书。我搜了一下高赞推荐的书的电子版。如有需要,可在微信微信官方账号“我是陈”后台回复“数学建模书”。
超过