实验数据处理指南(持续更新)
实验数据处理指南
本人本科做实验时常常会苦恼于实验数据处理,但是本院所开设的“误差分析与数据处理”课程内容可能不够全面,以及本人以后也是做实验方向的研究,会经常用到实验数据处理的相关内容,所以我计划整理实验数据处理的一般方法和流程,并在此持续更新。
误差与不确定度基础
首先我想明确一个事情,有测量就有误差。
假设我们现在正在测量一支笔的长度。直观上,这支笔一定有一个真实的长度(记为$L_0$)。然后我们拿一把尺子,零刻度线对着笔的一端,读出笔另一端所对应的读数(记为$L$)。这个测量值是不可能等于真值的,因为读数必然受到各种因素的影响(实验条件、仪器精度、人为操作等),我们所能做的,只有通过各种方式,使得实验测量值尽可能的接近真值$L_0$。但是,还是一样的,有测量就有误差,所以我们的实验测量值至多只能给出一个范围,并且声明我们有多大的把握真值同时也落在这个范围内。
算数平均值与标准差
为了更精确的得到我们的测量结果,很自然的可以想到,多次测量取平均值。这背后支撑的数学原理是 大数定律。
大数定律:当独立重复试验次数趋于无穷时,样本均值依概率收敛于总体期望值。
设 $l_1, l_2, \cdots, l_n$ 为 $n$ 次测量所得到的值,则算术平均值 $\bar{x}$ 为:
$$
\bar{x} = \frac{1}{n} \sum_i l_i
$$
在实际情况中,被测量量的真值都是未知的,所以实践中常用算术平均值作为被测量量的真值。
虽然算术平均值能够提供一个较为可靠的真值估计,但仅凭平均值,我们仍无法判断测量结果的一致性或稳定性。在实际测量中,数据往往会围绕平均值上下波动,这种波动的程度正是我们需要关注的另一个关键指标——标准差。
设 $l_1, l_2, \cdots, l_n$ 为 $n$ 次测量所得到的值,这些测量结果的算术平均值为 $\bar{x}$,则对应的标准差 $\sigma$ 为:
$$
\sigma = \sqrt{\frac{1}{n-1}\sum_i (l_i - \bar{x})^2}
$$
需要注意的是,这里使用的是 $(n-1)$ 而不是 $(n)$,因为这里是对标准差的一个估计。核心差异是,我们用真值的估计值 $\bar{x}$ 代替了真值 $l_0$。这被称为 贝塞尔估计。
标准差反映了测量数据相对于平均值的偏离程度。标准差越小,说明测量结果越集中,测量过程越稳定;反之,标准差越大,则表明测量误差较大,数据波动明显。
简单总结一下标准差的用途:
- 评估测量精度:标准差是衡量测量精度的重要指标。一个较小的标准差意味着测量系统具有较好的重复性和可靠性。
- 识别异常值:通过标准差,我们可以判断某个测量值是否为异常值(outlier)。通常,若某数据点与平均值的偏差超过 $3\sigma$(即三倍标准差),则认为该点可能受到粗大误差的影响。
- 构建置信区间:在正态分布假设下,平均值 $\bar{x}$ 与标准差 $\sigma$ 可用于构建置信区间。例如,约 68% 的测量值落在 $\bar{x} \pm \sigma$ 范围内,95% 落在 $\bar{x} \pm 2\sigma$ 范围内。
不确定度 A 类与 B 类评定
未完待续。
