回归分析的理解和简单应用

回归分析的理解和简单应用

回归分析是确定两个或多个变量之间数量关系的统计分析方法。它被广泛使用。回归分析根据涉及自变量的个数分为回归分析和多元回归分析。根据自变量的个数,可分为单变量回归分析和多变量回归分析;根据自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果回归分析中只包含一个自变量和一个因变量,并且它们之间的关系可以用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析包括两个或两个以上的自变量,且因变量与自变量之间存在线性关系,则称为多元线性回归分析。

定义

回归分析是应用最广泛的数据分析方法之一。它以观测数据为基础,建立变量之间适当的依赖关系来分析数据的内在规律,可用于预测、控制等问题。

方差的同质性

线性关系

效果累积

无测量误差的变量

变量服从多元正态分布。

观察独立性

模型是完整的(没有不应该输入的变量,也没有应该输入的变量)。

误差项是独立的,服从(0,1)正态分布。

真实数据往往不能完全满足上述假设。因此,统计学家开发了许多回归模型来解决线性回归模型的假设过程的约束。

研究一个或多个随机变量Y1,Y2,…,Yi与其他变量X1,,…,Xk之间关系的统计方法,也称为多元回归分析。一般Y1,Y2,…,Yi为因变量,X1,,…,Xk为自变量。回归分析是一种数学模型,特别是当因变量和自变量为线性时,它是一种特殊的线性模型。最简单的情况是一个自变量和一个因变量,它们一般是线性的,称为一元线性回归,即模型为Y=a+bX+ε,其中x为自变量,Y为因变量,ε为随机误差。一般假设随机误差的平均值为0,方差为σ 2 (σ 2大于0)。σ 2与x的值无关,如果进一步假设随机误差服从正态分布,则称之为正态线性模型。一般来说,它有k个自变量和一个因变量,因变量的值可以分为两部分:一部分是由于自变量的影响,即表示为自变量的函数,其中函数的形式是已知的,但包含一些未知的参数;另一部分是由于其他因素和随机性,即随机误差。当函数形式为参数未知的线性函数时,称为线性回归分析模型;当函数是具有未知参数的非线性函数时,称为非线性回归分析模型。自变量个数大于1时,称为多元回归,因变量个数大于1时,称为多元回归。

回归分析的主要内容有:

①根据一组数据,确定某些变量之间的定量关系,即建立数学模型,估计未知参数。估计参数常用的方法是最小二乘法。

②检验这些关系的可信度。

(3)在多个自变量* * *与一个因变量的关系中,通常用来判断哪些(或哪些)自变量影响显著,哪些自变量影响不显著,将影响显著的自变量放入模型,剔除影响不显著的变量,如逐步回归、前向回归、后向回归等。

④利用所需关系预测或控制生产过程。回归分析应用广泛,统计软件包使得各种回归方法的计算非常方便。

在回归分析中,变量分为两类。一类是因变量,通常是实际问题中关心的一类指标,通常用y表示;另一种影响因变量数值的变量叫做自变量,用x表示。

回归分析研究的主要问题是:

(1)确定Y和X之间数量关系的表达式,称为回归方程;

(2)检验所得回归方程的可靠性;

(3)判断自变量X是否对因变量Y有影响;

(4)利用得到的回归方程进行预测和控制。

回归分析可以说是统计学中最丰富、应用最广泛的一个分支。这一点也不夸张。包括最简单的T检验和方差分析,也可以归入线性回归的范畴。卡方检验也可以用逻辑回归代替。

回归的名字有很多,线性回归,logistic回归,cox回归,poission回归,probit回归等等,总能让你晕头转向。为了让大家对众多回报有一个清晰的认识,这里简单总结一下:

1,线性回归,这是我们学习统计学时接触到的最早的回归。就算你不懂别的,至少你要知道线性回归的因变量是连续变量,自变量可以是连续变量,也可以是分类变量。如果只有一个自变量,只有两种类型,那么这个回归就相当于t检验。如果只有一个自变量,有三个或三个以上的类别,那么这个回归就相当于方差分析。如果有两个自变量,一个是连续变量,一个是分类变量,那么这个回归就相当于协方差分析。因此,线性回归必须准确,因变量必须连续。

2.logistic回归与线性回归一起成为两大回归,其应用范围不亚于线性回归,甚至有大放异彩之势。因为逻辑回归是如此的简单实用。可以直接解释为,如果存在一定的危险因素,发病风险会增加2.3倍,听起来很好理解。与线性回归相比,其实际意义较弱。Logistic回归正好与线性回归相反,因变量必须是分类变量,而不是连续变量。分类变量可以是二元的也可以是多分类的,多分类可以是有序的也可以是无序的。二元logistic回归根据研究目的有时分为条件logistic回归和非条件logistic回归。条件logistic回归用于成对资料的分析,无条件logistic回归用于不成对资料即直接随机抽样资料的分析。无序多分类logistic回归有时会变成多项式logit模型,有序logistic回归有时又称为累积比logit模型。

3,cox回归,cox回归的因变量有些特殊,因为他的因变量必须同时有两个,一个代表状态,一个代表时间,而且应该是连续变量。只有当这两个变量同时可用时,才能使用Cox回归分析。Cox回归主要用于生存数据的分析,它至少有两个结局变量,一个是死亡,是活着还是死了?第二是死亡时间。如果死亡发生,会在什么时候发生?如果活着,从开始观察到结束有多久了?所以有了这两个变量,我们可以考虑用cox回归分析。

4,泊松回归,泊松回归不如前三种应用广泛。但实际上,如果可以用logistic回归,通常可以用泊松回归。泊松回归的因变量是数字,即观察一段时间后,有多少人患病?或者死了多少人?等一下。其实和logistic回归差不多,因为logistic回归的结果是发病还是死亡,也需要用发病数和死亡数。仔细想想,其实和多少人得病多少人死是一样的。只是poission的回归没有logist的出名,所以用的人也没有logist的多。但是不要认为泊松回归没有用。

5.probit回归在医学上真的没用。关键问题是probit这个词太难理解,通常翻译成概率单位。Probit函数其实和logistic函数很接近,它们的分析结果也很接近。可惜probit回归的实际意义真的没有logistic回归那么容易理解,导致它晦涩难懂,但在社会学领域似乎用得更多。

6.负二项式回归。所谓负二项是指一种分布,实际上类似于泊松回归和logistic回归。泊松回归用于服从泊松分布的数据,logistic回归用于服从二项分布的数据,负二项回归用于服从负二项分布的数据。说起这些分布,大家都不想听。多么抽象的名词,我也头疼。如果简单理解的话,二项式分布可以看作是二进制分类数据,泊松分布可以看作是计数数据,也就是数字,而不是身高,身高可能有小数点,数字不可能有小数点。负二项分布也是一个数,但是比泊松分布要求更高。如果你的结尾是一个数字,并且结尾可能是聚合的,那么它可能是负二项分布。举个简单的例子,如果调查流感的影响因素,结果当然是流感的病例数。如果调查中有些人是同一个家庭,因为流感具有传染性,那么如果同一个家庭中有一个人得了流感,其他人可能也会得流感,所以这就是聚集性。虽然这类数据的结果是一个数字,但由于其聚类性,使用泊松回归不一定合适,可以考虑负二项回归。既然提到了这个例子,那么用于逻辑回归的数据通常可以由poission返回。就像上面这个案例,我们可以把结局分为两类。每个人都有两种状态,流感或者不流感。这是一个二元结局,所以可以用logistic回归。但是如果这里的数据是集群的呢?幸运的是,除了逻辑回归还有更多扩展。你可以使用多层逻辑回归模型或考虑广义估计方程。这两种方法都可以处理具有分层或重复测量数据的二元因变量。

7、威布尔回归,有时中文音译就是威布尔回归。也许你还没有听说威布尔回归的消息。其实这个名字只是一个吓唬人的噱头。上一篇文章提到,cox回归是生存数据分析中常用的方法,几乎主导了整个生存分析。但其实夹缝中还是有几种方法,很顽强,很有生命力,但国内大多不愿意用。威布尔回归就是其中之一。为什么cox回归流行?因为简单,不用考虑条件(比例条件除外)就可以使用,所以大部分生存数据都可以使用。威布尔回归是有条件的,使用时数据必须符合威布尔分布。什么,又是分销?!估计大家的头又变大了。要不要不要往下看,用cox回归?但我还是建议读一读。为什么?相信大家都知道参数检验和非参数检验,可能更喜欢参数检验,比如T检验,而不是非参数检验,比如秩和检验。那么这里的威布尔回归和cox回归基本上可以说是分别对应参数检验和非参数检验。我在上一篇文章中也介绍了参数检验和非参数检验的优缺点。如果数据符合威布尔分布,直接应用威布尔回归当然是最理想的选择,可以给你最合理的估计。如果数据不符合威布尔分布,那么如果用威布尔回归,应用误差,结果肯定不真实。所以,如果你能判断你的数据是否符合威布尔分布,当然最好用参数回归,也就是威布尔回归。但如果你真的没有信心判断数据分布,也可以老老实实用cox回归。Cox回归可以看作是非参数的,不管数据分布如何都可以使用,但是由于它可以用于任何数据,所以不可避免的有一个缺点,就是每一个数据都没有用对。威布尔回归就像裁缝,以体型为数据,以衣服为模型。威布尔回归就是根据你的体型做衣服,一定会适合你,但不适合别人。考克斯的回归就像去商场买衣服。衣服适合很多人,但不适合所有人。只能说一般都合适。至于是选择麻烦的量体裁衣的方式还是干脆去商场买现成的,就看你的喜好和你对自己体型的了解了。如果你非常熟悉,当然会为你量身定做衣服。如果不太了解,就去商场买流行的衣服。

8.主成分回归。主成分回归是一种合成方法,相当于主成分分析和线性回归的合成。主要用于解决自变量之间存在高度相关性的情况。这在现实中并不少见。比如你要分析的自变量中既有血压又有血糖,这两个指标可能有一定的相关性。如果将它们同时放入模型中,会影响模型的稳定性,有时会造成严重的后果,如结果与实际情况严重不符。当然,解决的办法有很多,最简单的就是剔除其中一个,但如果真的舍不得,毕竟是煞费苦心的调查,删了就可惜了。如果不能承受,可以考虑用主成分回归,相当于用一个变量表达这两个变量所包含的信息。这个变量叫主成分,所以叫主成分回归。当然,如果一个变量代替两个变量,肯定不可能完全包含它们的信息,包含80%或者90%就好了。但有时我们必须做出选择。你想要一个100%信息,但是变量很多的模型吗?还是有90%信息但只有1或2个变量的模型?比如你要诊断感冒,是不是要把所有与感冒相关的症状和检查结果都做完?还是简单的根据几个症状来判断?我觉得根据几个症状,大致可以确定90%是感冒。不一定是100%的信息吧?模型也是如此,模型是用于现实的,不是空中楼阁。既然要用在实践中,那就一定要简单。对于一个疾病,如果30个指标能诊断100%,3个指标能诊断80%,我想大家都会选择3个指标的模型。这是主成分回归存在的基础。用几个简单变量综合多个指标的信息,使几个简单主成分可能包含许多原始自变量的大部分信息。这就是主成分回归的原理。

9.里奇回来了。我没有查过山脊归来这个名字的由来,可能是因为它的图形有点像山脊。不要纠结于名字。岭回归也用于处理自变量之间高度相关的情况。只是和主成分回归的具体估计方法不同。线性回归的计算使用最小二乘估计方法。当自变量高度相关时,最小二乘回归估计的参数估计值会不稳定。这时,如果在公式中加入某种东西使其稳定,这个问题就解决了。岭回归就是这个思路,在最小二乘估计上加一个k,改变它的估计值,使估计结果稳定。K应该有多大?从脊迹图来看,估计这就是脊回归名称的由来。可以选择很多K值,可以做一个岭图,看这个图哪个值变得稳定,然后就可以确定K值,然后就解决了整个参数估计不稳定的问题。

10,偏最小二乘回归。偏最小二乘回归也可以用来解决自变量之间相关性高的问题。但比主成分回归和岭回归更好的一个优点是,偏最小二乘回归可以用在病例数很少的情况下,甚至在病例数小于自变量数的情况下。听起来很不可思议,不就是说例子数比自变量数的10倍要好吗?病例数怎么会小于自变量?这怎么算?可惜偏最小二乘回归真的有这么令人发指的优点。所以,如果你的自变量高度相关,案例数特别少,自变量很多(那么多无奈的问题),那么你现在不用着急,用偏最小二乘回归就可以了。其实它的原理有点像主成分回归,也是提取一些自变量的信息,损失了一定的准确性,但保证了模型更符合实际。所以这种方法不是直接用因变量和自变量来分析,而是用反映因变量和自变量部分信息的新的综合变量来分析,不需要比自变量有更多的情况。偏最小二乘回归还有一个很大的优点,就是可以用在多个因变量的情况下。普通线性回归只有一个因变量,而偏最小二乘回归可以用于多个因变量和多个自变量之间的分析。因为它的原理是同时提取多个因变量和多个自变量的信息形成新的变量进行再分析,所以多个因变量对它来说无所谓。

看了上面的解释,希望对你理解回归分析的应用有所帮助。

以上是边肖为大家分享的对回归分析的理解和简单应用。更多信息可以关注环球常春藤分享更多干货。