用线性回归或逐步回归求外语翻译

线性回归

来自维基百科,免费的百科全书

跳转到:导航,搜索

在统计学中,线性回归用于两件事;

构造一个简单的公式,在给定一个变量的值的情况下,预测另一个变量的值。

测试给定变量是否以及如何与另一个或多个变量相关。

注:相关性并不意味着因果关系。

线性回归是回归分析的一种形式,其中一个或多个自变量和另一个变量(称为因变量)之间的关系通过最小二乘函数(称为线性回归方程)建模。该函数是一个或多个模型参数的线性组合,称为回归系数。当预测值(即回归方程中的因变量)相对于自变量作图时,具有一个自变量的线性回归方程代表一条直线:这称为简单线性回归。但是注意“线性”不是指这条直线,而是指回归方程中回归系数出现的方式。这些结果要经过统计分析。

一个自变量线性回归的例子。内容[隐藏]

1简介

1.1理论模型

1.2数据和估算

1.3经典假设

2最小二乘法分析

2.1最小二乘估计

2.2回归推断

2.2.1单变量线性情况

2.3差异分析

3个例子

4检验回归模型的结果

4.1检查模型假设

4.2评估拟合优度

5其他程序

5.1广义最小二乘

5.2变量误差模型

5.3广义线性模型

5.4稳健回归

5.5工具变量和相关方法

6线性回归的应用

6.1趋势线

6.2流行病学

6.3金融

6.4环境科学

7另见

8个音符

9篇参考文献

10外部链接

[编辑]简介

[编辑]理论模型

线性回归模型假设,给定一个随机样本,Yi、回归变量和回归变量之间可能存在不完全的关系。干扰项也是一个随机变量,它被添加到这个假定的关系中,以捕捉除以外的所有其他因素对Yi的影响。因此,多元线性回归模型采用以下形式:

请注意,回归变量也称为独立变量、外生变量、协变量、输入变量或预测变量。同样,回归变量也被称为因变量、响应变量、测量变量或预测变量。

不符合本规范的模型可以用非线性回归来处理。线性回归模型不必是独立变量的线性函数:本文中的线性意味着Yi的条件均值在参数β中是线性的。例如,该模型在参数β1和β2中是线性的,但在Xi的非线性函数中不是线性的。下面的示例显示了此模型的一个示例。

[编辑]数据和估算

区分用随机变量表示的模型和这些随机变量的观测值是很重要的。通常,由小写字母表示的观察值或数据由n个值组成。

一般来说,有p + 1个参数需要确定。为了估计参数,使用矩阵符号通常是有用的

其中Y是列向量,包括的观察值,包括未观察到的随机分量,矩阵X是回归的观察值

x通常包括一个常数列,即一个不随观测值变化的列,用于表示截距项β0。

如果X的列之间存在任何线性相关性,则参数β的向量不能通过最小二乘法来估计,除非β受到约束,例如,通过要求其一些分量的和为0。然而,在这种情况下,β分量的一些线性组合仍然是唯一可估计的。例如,该模型不能独立地求解β1和β2,因为观测值矩阵的秩为2。在这种情况下,模型可以重写为,并且可以求解以给出复合实体β1 + 2β2的值。

请注意,仅执行的最小二乘估计,没有必要将样本视为随机变量。就像我们到目前为止所做的那样,把样本看作是固定的、可观察的值,这在概念上可能更简单。然而,在假设检验和置信区间的背景下,有必要将样本解释为随机变量,这将产生本身也是随机变量的估计量。然后就有可能研究估计量的分布并作出推论。

[编辑]经典假设

线性回归的经典假设包括:样本是从感兴趣的总体中随机选取的,因变量在实直线上是连续的,误差项服从相同且独立的正态分布,即误差是同分布和高斯分布。请注意,这些假设意味着误差项在统计上不依赖于自变量的值,即在统计上独立于预测变量。除非另有说明,本文采用这些假设。注意,所有这些假设都可以放宽,这取决于手头问题的真实概率模型的性质。选择放松哪些假设、采用哪种函数形式以及与底层概率模型相关的其他选择的问题被称为规范搜索。特别要注意的是,误差项是正态分布的假设是没有意义的,除非样本非常小,因为中心极限定理意味着,只要误差项具有有限的方差,并且相关性不是太强,即使潜在误差不是正态分布的,参数估计也将是近似正态分布的。

在这些假设下,简单线性回归的等价公式(其明确地将线性回归显示为条件期望的模型)可以被给出为

给定的易的条件期望值是的仿射函数。注意,这个表达式是基于这样的假设:的均值在Xi上是零条件的。