概然而非必然的世界（之误差的估计与估计的误差）

本文可以总结成一句绕口令，

误差的估计与估计的误差

将从马尔可夫不等式开始，尝试涉及参数估计的重要思想。并且，通过本文您将看到，估计出的参数，天然地具有误差，而这些误差范围也需要合理的估计。

Markov's inequality^[1] 是针对非负随机变量，总有如下关系成立

其中，。这说明了，随机变量值越大，且距离其均值越远，则概率越小。

证明过程比较简单

其中，代表这样一种概率密度函数，即满足条件时，密度值取，否则取。则有下式成立

证明完毕。

由马氏不等式，可以较为简单的推广到 Chebyshev's inequality^[2]。

对于均值和方差分别为和的随机变量来说，有下式成立

代入马氏不等式，可得

大数定律，由于其过于普通，我们并不加证明地给出其定义

其中，，且为独立同分布的随机变量。

采用与“大数定律”同样的设置，构造新随机变量，有下式成立

此时，服从分布。而时，有下式成立

此即中心极限定理，说明大量独立同分布的随机变量之和满足正态分布。

以值为的次实验的，二项分布随机变量为例，

我们采用切氏不等式，可得

上式给出了针对该随机变量的范围估计。另外，由于

可见，实验次数越多，对于真实概率的估计值就越准确。

但是，还能更准确吗？我们尝试使用“中心极限定理”，构造随机变量

因此，有下式成立

其中，。

不难发现，在这样的假设下，我们可以重新得到一个误差的估计

这个值显然比切氏不等式给出的误差要小很多，但它本身的误差却很大。

我们使用 Berry-Esseen central limit theorem^[3] 来对新的估计值的误差进行估计，可得下式

其中，。

可见，新的估计值虽然较小，但其本身的误差却很大，使得总体误差与实际值之间的差异仍然不会小于的数量级。所以，数值小并不代表一定能准确估计，因为它背后的误差往往十分可观的大。这一点十分值得注意。

[1]

Markov's inequality: https://mathworld.wolfram.com/MarkovsInequality.html

[2]

Chebyshev's inequality: https://mathworld.wolfram.com/ChebyshevInequality.html

[3]

Berry-Esseen central limit theorem: https://www.physicslog.com/blog/2018/04/proof-of-berry-essen-theorem/