Loading...
墨滴

张春成

2021/06/14  阅读:27  主题:默认主题

概然而非必然的世界(之四)

概然而非必然的世界(之四)

本文将以“二项分布”为起点,分别引申出“泊松分布”、“正态分布”、“卡方分布”与“T分布”。 虽然名目众多,但通过本文的分析可以看到,这些分布完全是一脉相承的关系,并不难理解。 这些分布在实际应用中,可以解决 以上的统计分析问题。


二项分布的问题与解决

从前文的分析中(概然而非必然的世界(之三)[1]),我们看到“二项分布”在多次重复的伯努利实验中,可以用于对累积值进行较为准确的估计。

然而,它存在的问题是,在实验次数 时,直接计算二项分布的概率密度函数是不可行的。 因为它只能适用于“离散”的情况,无法直接逾越“离散”与“连续”之间的鸿沟[2]

这一点相当之重要。 因为我们常见这样一种场景,即在特定时间段内,我们需要估计特定事件发生的次数。

泊松过程

在数学上,我们可以将其抽象为这样一个问题,即考虑这样一个时间段

在该时间段的每个时间微元 内,某个事件都能够以 的概率发生。 且在单位时间范围内,该事件发生的数量为特定值,则满足下式

其中, 为待定常数。

那么,该时间段内,该事件发生次数 的概率密度,可以通过下式进行估计

不难发现,这就是被推入极限窘境的“二项分布”概率密度函数。 事实上,这个计数过程代表一种特殊的动力学过程,称为“泊松过程[3]”。

泊松分布

为了对“泊松过程”进行分析,我们引入“泊松分布”。 需要对“二项分布”的极限情况进行计算。 我们将 值代入可得

经过简单的分解和近似

近似一

近似二

代回原式,可得

该式即为“泊松分布”的概率密度函数。

为了求得其均值和方差统计量,我们回到“二项分布”的均值和方差

的条件下,我们可得“泊松分布”的均值和方差

到此,我们解决了“泊松分布”的概率密度函数的初步问题。

正态分布

然而,“泊松分布”需要事件发生的概率 ,这一条件往往不能得到满足。 在不满足的情况下,我们需要从另一角度进行分析,首先重写“二项分布”的概率密度函数如下

为了得到上述极限方程的解析式,我们引入Sterling 公式[4]

经过一系列正态估计的推导[5],可得

我们再次利用“二项分布”的均值与方差,令

代入上式,可得

不难发现,此即正态分布的概率密度函数。 这说明正态分布可以看作二项分布在 时的一般推广。即二项分布的极限分布是正态分布。

二项分布族

至此,我们可以看到,从二项分布开始,我们可以逐步衍生出一个分布家族。 它的谱系可以简化如下

Tree.png
Tree.png

本文推导到了“正态分布”,下面将继续进行介绍,直到完成整个图谱。

参考资料

[1]

概然而非必然的世界(之三): https://mp.weixin.qq.com/s?__biz=MzkxNTI1MDc5NA==&mid=2247483897&idx=1&sn=a8d2bd6095cbca7564ae24202ffbd28f&chksm=c1634afcf614c3ead5fd5c2a8c1482015f861b33fa2a1cbab72dd551b05d92ec163281a34760&token=135658256&lang=zh_CN#rd

[2]

离散”与“连续”之间的鸿沟: https://mp.weixin.qq.com/s?__biz=MzkxNTI1MDc5NA==&mid=2247483879&idx=1&sn=6a4ac2497436cc3a55e11e2d9f80f615&chksm=c1634ae2f614c3f4d0198f691f39498b80a82771710bfbad8eb36d0ba289273443087a268af3&token=135658256&lang=zh_CN#rd

[3]

泊松过程: http://www.stat.yale.edu/~pollard/Courses/241.fall97/Poisson.Proc.pdf

[4]

Sterling 公式: https://www.researchgate.net/publication/237571154_A_Very_Short_Proof_of_Stirling%27s_Formula

[5]

正态估计推导: http://scipp.ucsc.edu/~haber/ph116C/NormalApprox.pdf

张春成

2021/06/14  阅读:27  主题:默认主题

作者介绍

张春成