误差线是什么?

科研制图中经常用到误差线,但是你知道误差线对应的表示是标准差还是标准差吗?实际上...任何事!此外,还可以用特定的置信区间(例如95%区间)来表示。

误差线主要表示数据的每个数据点的误差(或不确定性)范围,显示潜在的误差或相对于数列中每个数据标志的不确定程度,以更准确的方式呈现数据。

无论是使用标准差(SD)、标准误(SE)还是置信区间(CI),撰写和发表科学论文都是可以接受的。重点是在论文中明确属于哪一种。

那么这些不同的表示和计算过程有什么区别呢?

标准偏差

标准差是偏离均方的算术平均值的平方根,用σ表示,(总体)标准差的计算公式如下:

在公式中,X1、X2、X3、...……XN(所有实数)的平均值(算术平均值)为μ,标准差为σ。

注意:

在一些公式中,自由度(N-1)经常用根号而不是N来划分,主要是因为:

如果是总体(即总体标准差),在根号中除以n,用σ表示(对应Excel函数:stdevp);

在抽样的情况下(即样本的标准差),根号除以(N-1),用S表示(对应Excel函数:stdev);

因为我们接触的样本量很大,所以一般在根号内用(N-1)除。因此,在抽样统计中,计算公式是:

事实上,由于总体标准差是未知的,所以通常用样本的标准差来估计总体标准差。因此,误差线的范围可以表示为以下两种类型:

标准误差

标准误差,也称为均方根误差,计算如下:

σ代表总体标准差,n是样本数。当总体标准差未知时,样本标准差用于估计:

误差线的范围也可以表示为:

置信区间

指样本统计量构造的总体参数的估计区间,涉及区间估计(点估计)。置信区间的计算需要根据σ是否已知,样本量不同来估计。

1,σ(总体标准差)已知,或未知,但为大样本(一般样本量大于等于30),认为样本均值近似服从正态分布:

以便执行区间估计,从而获得:

σ(总体标准差)已知,可以直接算出标准差。如果未知,则在计算前通过样本标准差S估计总体标准差:

Z*可以通过正态分布检验和查表得到。不同的置信度值是不同的。常见的置信度(c)数据如下(双方):

比如常用的置信区间0.95就是1.96倍标准差(误差线的范围如下):

2、σ(总体标准差)未知,且是小样本(一般样本量小于30,很多生物研究实验往往小于30且σ未知),那么选择t分布:

T*也是通过t- test查表得到的,其值与置信度和自由度有关(n-1)(此处适用于两边):

举个栗子的例子。一般三个生物重复测量数据n=3(自由度为2),0.95的置信区间对应t*为4.303,是标准误差的4.303倍(误差线范围):