实验数据处理指南

本人本科做实验时常常会苦恼于实验数据处理，但是本院所开设的“误差分析与数据处理”课程内容可能不够全面，以及本人以后也是做实验方向的研究，会经常用到实验数据处理的相关内容，所以我计划整理实验数据处理的一般方法和流程，并在此持续更新。

误差与不确定度基础

首先我想明确一个事情，有测量就有误差。

假设我们现在正在测量一支笔的长度。直观上，这支笔一定有一个真实的长度（记为$L_0$）。然后我们拿一把尺子，零刻度线对着笔的一端，读出笔另一端所对应的读数（记为$L$）。这个测量值是不可能等于真值的，因为读数必然受到各种因素的影响（实验条件、仪器精度、人为操作等），我们所能做的，只有通过各种方式，使得实验测量值尽可能的接近真值$L_0$。但是，还是一样的，有测量就有误差，所以我们的实验测量值至多只能给出一个范围，并且声明我们有多大的把握真值同时也落在这个范围内。

算数平均值与标准差

为了更精确的得到我们的测量结果，很自然的可以想到，多次测量取平均值。这背后支撑的数学原理是 大数定律。

大数定律：当独立重复试验次数趋于无穷时，样本均值依概率收敛于总体期望值。

设 $l_1, l_2, \cdots, l_n$ 为 $n$ 次测量所得到的值，则算术平均值 $\bar{x}$ 为：

$$
\bar{x} = \frac{1}{n} \sum_i l_i
$$

在实际情况中，被测量量的真值都是未知的，所以实践中常用算术平均值作为被测量量的真值。

虽然算术平均值能够提供一个较为可靠的真值估计，但仅凭平均值，我们仍无法判断测量结果的一致性或稳定性。在实际测量中，数据往往会围绕平均值上下波动，这种波动的程度正是我们需要关注的另一个关键指标——标准差。

设 $l_1, l_2, \cdots, l_n$ 为 $n$ 次测量所得到的值，这些测量结果的算术平均值为 $\bar{x}$，则对应的标准差 $\sigma$ 为：
$$
\sigma = \sqrt{\frac{1}{n-1}\sum_i (l_i - \bar{x})^2}
$$

需要注意的是，这里使用的是 $(n-1)$ 而不是 $(n)$，因为这里是对标准差的一个估计。核心差异是，我们用真值的估计值 $\bar{x}$ 代替了真值 $l_0$。这被称为 贝塞尔估计。

标准差反映了测量数据相对于平均值的偏离程度。标准差越小，说明测量结果越集中，测量过程越稳定；反之，标准差越大，则表明测量误差较大，数据波动明显。

简单总结一下标准差的用途：

评估测量精度：标准差是衡量测量精度的重要指标。一个较小的标准差意味着测量系统具有较好的重复性和可靠性。
识别异常值：通过标准差，我们可以判断某个测量值是否为异常值（outlier）。通常，若某数据点与平均值的偏差超过 $3\sigma$（即三倍标准差），则认为该点可能受到粗大误差的影响。
构建置信区间：在正态分布假设下，平均值 $\bar{x}$ 与标准差 $\sigma$ 可用于构建置信区间。例如，约 68% 的测量值落在 $\bar{x} \pm \sigma$ 范围内，95% 落在 $\bar{x} \pm 2\sigma$ 范围内。

不确定度 A 类与 B 类评定

未完待续。