如何从spss回归分析结果中得到回归结果
回归分析的结果可以分为以下几部分:1)回归模型;2)回归系数;3)因变量和自变量的特征;4)自变量之间的关系。其中1和2是必须详细上报的基本信息;而3和4可以根据具体情况是不同的辅助信息。下面分别讨论。
如何描述回归模型和回归系数
我简单说一下一元回归。一元回归,即只涉及一个自变量(如x)。这种模型在社会科学中很少见(一个常见的例外是时间序列分析中因变量的长期趋势),而且容易报告。一般不需要用表格,只需要写一句话(比如“b =?,std =?,Beta =?”)或者给出一个公式(比如“Y =?+ ?b,其中std =?,Beta =?”)就够了。如果一个研究中有多个单变量回归分析,那么也应该可以用一个表来报告(参与?),以便读者对比车型。
接下来我要讲多元回归。因为涉及到很多参数,有些是必须上报的,有些是自由裁量的,有些完全没有必要。为了便于说明,我根据SPSS回归分析(其他统计软件也差不多)的输出结果,把如何上报回归模型和回归系数做了一个列表(表1)。如表所示,我把各种参数分为了四类:必报、推荐报、一般不需要、完全不需要。我的分类标准来自于公认假设检验所涉及的四个方面,即变量间关系的显著性、强度、方向和形式(详见文章《解释变量间关系时必须考虑的四个问题》)。也就是说,每个参数的选择应该并且可以取决于它是否提供了非重复显著性(即Sig)、强度(b或β的值)、方向(b或β的符号)和形式(自变量的变换)。
表1。如何报告回归模型和回归系数的列表
注意SPSS结果的来源是否上报,如何上报。
回归模型部分
r因变量与所有自变量的复合相关系数的模型汇总表完全没有必要?
R SquareR的平方模型汇总表一般不需要。
调整后的R平方的校正值模型汇总表必须在表2中报告。
估计因变量(注1)模型汇总表的标准差建议见表2。
平方和总偏差方差分析表完全没有必要?
Df自由方差分析表完全没有必要?
均方差均数方差分析表完全没有必要?
f模型f值方差分析表一般不需要?
Sig的重要级别。f值方差分析表必须在表2中报告。
N模型(注2)方差分析表中的病例数必须在表2中报告。
回归系数部分
非标准化系数(b)非标准化系数必须在表2中报告。
非标准化系数的标准误差系数表(STD。误差)B必须在表2中报告。
标准化系数(β)标准化系数表必须在表2中报告。
t = B/标准。误差系数表??
Sig.t值的有效级别。系数表必须记录在表2中。
b的95%置信区间(下限)b置信区间(下限)表(注3)建议报告见表2。
b的95%置信区间(上限)b置信区间(上限)表(注3)建议报告见表2。
注1:因变量预测值的标准差描述了模型的精度。例如,表2中的因变量为当前年薪,其预测误差为?即如果我们用这个模型(包括三个自变量:起薪、工龄、性别)来预测同等条件下企业员工的年薪,我们可以知道?。这类信息无法从模型的其他参数中得知,如R平方或其修正值、显著性水平以及各自变量的B或Beta。
注2:如果因变量和所有自变量都没有默认值,那么模型中的病例数等于样本数。但是变量往往有默认值,所以模型中的案例数会少于样本数,有时两者相差很大(当然是严重问题),所以一定要报前者。SPSS不直接显示这些信息,但是很容易计算,等于ANOVA表中的总df+1。回归统计学
注3:B的置信区间是检验B的显著性水平的另一个工具(如果上下限之间有0,说明B在95%的水平上不显著)以弥补T检验及其Sig值的不足。这是一个经典而复杂的问题,被称为零假设显著性检验(NHST)。本文就不详细讨论了。感兴趣的读者可以参考相关网页(R. C. Fraley丹尼斯.SPSS并没有直接给出B的置信区间,所以需要在“统计”这一项中补充。如右图所示,在SPSS回归分析的输出中,默认只显示“估计”和“模型拟合”(即会生成表1中除置信区间以外的其他参数)。建议增加“置信区间”。
现在用一个例子来演示如何报告回归分析的结果。为了方便你重复这个例子,我用的数据是SPSS自带的world95.sav。这是1995年联合国教科文组织(或世界银行等机构)公布的全球109个国家或地区的“国情”数据,包含人口、地理、经济、社会、文化等26项指标。我以birth_rt(每65438人+0,000人的出生率)为因变量,gpd_car(人均GDP)、urban(城市化,即城市人口占人口的比例)、literacy(识字率,即读者占人口的比例)、calories(每日卡路里摄入量)为自变量。根据表1的原则,我在表2中报告了这种回归分析的结果:
[转载]回归分析结果如何上报
由于篇幅和本文目的的限制,我不解释表2中的参数。但是我想对表格中的格式做一些补充说明。
如何给表格加标题:一般只需要描述表格中的内容。那么,这个表格的内容是什么呢?它是出生率回归到四个独立变量的结果。四个自变量在表中有详细描述,所以在表标题中没有必要重复。
如何描述变量(包括因变量和自变量):我先给出每个变量的理论概念名称(必要时可以用英文),然后在括号中注明其对应的SPSS变量名称(这不是必须的,只是为了方便比较手头的SPSS数据)和运算定义(很有必要,强烈推荐,从中读者可以看出变量是否经过变换,从而知道关系的形式,即线性还是非线性)。为什么要详细描述变量?APA手册对如何制作各种定量分析结果的表格或图表有一个“独立信息”的基本原则,即每个图表都应包含基本信息,以便读者在不查阅文本的情况下独立阅读图表。因此,简单地粘贴SPSS的输出结果是最常见的做法,但这是一个坏习惯。
需要报一个常数吗?是的。常数在解释回归模型的实际社会意义方面起着非常重要的作用。比如,这个表中的常数是65.444,意味着世界(74个国家或地区)(即控制了四个自变量的影响后)的平均出生率是65.4‰,以此类推。需要注意的一点是,在SPSS的输出结果中,常量放在第一行。应该移到其他自变量之后。
报告哪个回归系数(即归一化或非归一化系数):这是最常见的问题。过去有“预测者”和“解释者”之争。前者主张报B就够了,后者认为报Beta就够了。实际上两者反映的是不同的信息,B不受因变量变异性的影响,因此可以比较各个回归模型中同一个自变量的B(这是很多理论假设需要检验的问题);但是Beta由于因变量的变异程度,不能跨越这个模型,但是由于它的标准化,可以和同一个模型中的其他Beta进行比较(也有很多理论假设想解决这个问题)。所以APA手册建议两者同时上报(英文第五版pp. 160-161)。
取小数点后几位:APA手册认为一般定量分析结果只保留小数点后两位就够了。对于回归结果,β、R2值、显著性水平等标准化参数取两位小数最合适(即它们的值在0到1之间)。b及其相关指标(标准误、置信区间)是非标准的(即数值可以任意大或小),所以要酌情决定,根据变量的刻度(即取值范围)多取、少取甚至不取小数点。一般来说,当自变量的规模大于因变量的规模时,其b会取较小的值,因此需要取一位或多位小数;相反,当自变量的规模小于因变量的规模时,其b会取较大的值,因此可以取较少的小数,甚至不取小数。在这种情况下,GDP和卡路里的尺度远大于出生率,所以它们的B值看起来很小(但不一定意味着影响小)。所以,我没有机械地只取小数点后两位。如果你仔细看表2,你会发现我的“谨慎”规则是“取0的最后一位后两位”,比如-0.00042,0.033,-0.034,-0.0041,这与APA手册中“取两位小数”原则的基本精神是一致的。我们每天看到的问题主要是保留小数点太多,这往往是因为直接粘贴SPSS的结果(其默认为6位小数位)而没有编辑造成的。
表格中是否有水平和垂直分隔线:根据APA的规定,除了表格上下和栏目标题下方有三条水平线外,都没有使用。许多人只是简单地复制Word表格的默认行,不做任何修改。评审人员一看就知道是“菜鸟”或者懒人。
P是什么?是SPSS输出中的Sig。p是所有统计学教材中常见的符号,Sig只针对SPSS。前者得到了更广泛的认可。
多元回归模型怎么报?以上是如何报告一个回归模型的结果。事实上,一项研究(即一篇论文)往往会涉及几个回归模型。有些作者喜欢为每个回归制作一个类似于表2的回归结果表。这种方法有两个问题:一是占用空间太大,二是不利于各种车型的对比。一般来说,平行(即所有自变量相同)或相交(即部分自变量相同)回归模型的结果应该也可以放在同一个表中。我们仍然使用world95的数据,然后分别对死亡率和艾滋病发病率进行回归,然后把三个模型的结果放在表3中:
表3和表2的主要区别在于,表2是横向的(每列都是同类参数),表3是纵向的(每列都是同一型号)。在表2中,将6种横向参数改为4个纵向行(其中p值用星号代替,置信区间的上下限合并在一行),以便读者进行横向比较(这是制作所有定量分析结果表格的一个基本原则)。如果是英文报告,去掉中文后表3会简洁很多。
如何报告变量特征与自变量之间的关系
如上所述,因变量和自变量的特征以及自变量之间的相关性是需要酌情考虑的辅助信息。既然这篇文章已经很长了,那就简单说一下吧。可变特征主要指
变量的操作定义(原始问卷)
取值范围(如0-100,0-1,0或1,1-5,1-7等。);很好奇,如果数据已经换算成对数、平方、根和倒数,应该也是最适合在这里报的)
描述性统计(均值、标准差、偏度、峰度等。)
一个推荐的方法是把所有变量的上述特征列成一个表(表4),放在论文的附录中,供有兴趣的读者查阅(类似的技术细节一般可以放在附录中)。?
-
SPSS回归结果分析
如何解释写论文的回归结果?
回答:
如果看判断系数r-square,本例中r-square =0.202,拟合优度很差。一般最好在0.6以上,或者至少在0.4以上。
第二,看系数估计量的sig值。其中,独立董事规模的sig值sig=0.007,小于0.05,说明该变量对因变量影响显著,而总经理持股不显著,因为sig值大于0.05。
模型不好的原因是你忽略了重要的影响因素。
但如果只关注这两个自变量对因变量的影响,那么结论就出来了。目标达到了,所以有意义。
统计学家刘德一
回答:
可以,如果是自变量,就是虚拟变量模型。只要一个sig小于0.05,模型就可以说是有效的。
问:
比如董事长是否兼任总经理,就是1,否则就是0。这样的数据可以回归吗?从哪个值可以看出这个模型是有效的?PS。r好像是0.041吧?
回答:
总的来说是这样的。只有存在线性相关时,才能做出线性回归模型。