2013-10-14

為什麼樣本標準差是除 $n-1$?




不知道大家在高中數學或大學研究所的統計課中,有沒有想過,為什麼標準差 (standard deviation) 的估計式 (estimator)(又稱:樣本標準差、子體標準差)、變異數 (variance) 的估計式是:

$(1)\ \hat{\sigma} = \sqrt{\frac{\sum_{i=1}^n(\mathbf{X_i}-\hat{\mu})}{n-1}}$
$(2)\ \hat{\sigma}^2 = \frac{\sum_{i=1}^n(\mathbf{X_i}-\hat{\mu})}{n-1}$

而已知平均時的標準差與變異數估計卻是:

$(3)\ \sigma = \sqrt{\frac{\sum_{i=1}^n(\mathbf{X_i}-\mu)}{n}}$
$(4)\ \sigma^2 = \frac{\sum_{i=1}^n(\mathbf{X_i}-\mu)}{n}$

這個 $n$ 與 $n-1$ 的差異,到底是怎麼來的?

今天我們要討論的皆為估計式。我在用白話文告訴你:「什麼是統計?」一文中提及,估計母數的算式為估計式。樣本標準差(標準差估計式)利用一組隨機從母體中抽出獨立的 $n$ 筆資料:

$\mathbf{X}_1\ldots\mathbf{X}_n$

來估計母體標準差。同樣,變異數估計式則是用於估計母體變異數。如果你學過機率,以上 $\mathbf{X}_1$ 到 $\mathbf{X}_n$ 都是隨機變數。

以下我們將針對變異數討論,所有論述只要取根號即可得標準差之結論。

我們先細看 $(2)$ 與 $(4)$ 式,比較後發現,除了 $n$ 與 $n-1$ 的差異以外,$(2)$ 使用了平均的估計式 $\hat{\mu}$ 而 $(4)$ 使用了真正的平均 $\mu$。為什麼使用平均的估計式:

$(5)\ \hat{\mu} = \frac{\sum_{i=1}^n\mathbf{X_i}}{n}$

會低估標準差,而需靠 $n-1$ 來修正呢?

標準差以平均為中心,衡量資料分散的程度,而樣本的平均自然是比真正的平均更接近樣本,所以分散程度程度較低,須做修正。以上論述意即 $(2)$ 式的分子小於 $(4)$ 式的分子。要證明上述,我們先證明 $f(c) = \sum_{i=1}^n(\mathbf{X_i}-c)$ 在 $c^*=\hat{\mu}$ 時為最小值,進而得到 $c=\mu$,而 $c\neq\hat{\mu}$ 時,$f(\mu)\geq f(\hat{\mu})$。證明寫於文末附錄。

我們現在知道使用平均估計式 $\hat{\mu}$ 得到的樣本標準差,比使用真正的平均 $\mu$ 來得小。但是到底小多少呢?接下來我們要來計算,使用 $\hat{\mu}$ 時,我們到底會低估我們的標準差多少。

用白話文告訴你:「什麼是統計?」一文中,我們有提及「偏差」的概念。估計式高估或低估母數時,我們稱之為有偏估計式,反之則稱為不偏估計式。數學上,有偏估計式之期望值不等於母數時,不偏估計式之期望值等於母數。

以平均的估計式而言:

$(5)\ \hat{\mu} = \frac{\sum_{i=1}^n\mathbf{X_i}}{n}$

我們可以計算平均估計式 $\hat{\mu}$ 的期望值,檢驗其是否等於母數 $\mu$:

$\begin{align}
\mathbb{E}[\hat{\mu}] =& \frac{1}{n}\sum_{i=1}^n\mathbb{E}[\mathbf{X_i}]\\ =&\frac{1}{n}n\mu\\ =&\mu \end{align}$

由於 $\mathbb{E}[\hat{\mu}] = \mu$,我們可以說 $\frac{\sum_{i=1}^n\mathbf{X_i}}{n}$ 為平均之不偏估計式。

接下來我們來到今天的正題,變異數估計式與其偏差。變異數的估計式較為複雜,計算也較為繁瑣,以下我已盡可能列出每一個步驟,力求清晰。

先不管那些只要有耐心就可以算出來的數學,我們來想想,到底是哪個環節,讓我們使用 $\hat{\mu}$ 的時候,會需要修正我們的估計式。我們先觀察變異數分母中的第 $i$ 項:

$(\mathbf{X_i}-\hat{\mu})^2$

若將其展開,則得到:

$(6)\ \mathbf{X}_i^2-2\mathbf{X}_i\hat{\mu}+\hat{\mu}^2$

此時,後兩項與 $\hat{\mu}$ 相關。若將 $(5)$ 式帶入,我們可以得到:

$\mathbf{X}_i^2-2\mathbf{X}_i\frac{\sum_{j=1}^n\mathbf{X_j}}{n}+\frac{\sum_{i=1}^n\mathbf{X_i}}{n}\frac{\sum_{j=1}^n\mathbf{X_j}}{n}$

其中有許多項形式為 $\mathbf{X}_i^2$。這個有什麼問題呢?一個平方數不可能為負數。經過嚴謹的計算後(詳細如下),我們可以從 $(6)$ 式的後半: $-2\mathbf{X}_i\hat{\mu}+\hat{\mu}^2$  得到許多負的平方項,意即 $(6)$ 式的後半實際上減掉了許多一定會大於零的數。此差異對變異數估計的影響,可從文末的計算得知,剛好為 $(4)$ 式的 $\frac{1}{n}$ 倍,意即未知平均時的變異數估計量為已知平均時的 $\frac{n-1}{n}$ 倍。此 $n-1$ 可由以下解釋:每次 $\mathbf{X}_i$ 與 $\hat{\mu}$ 相乘時,由於$\hat{\mu}=\frac{\sum_{i=1}^n\mathbf{X_i}}{n}$ 分母的 $n$ 項中有一項是 $\mathbf{X}_i$,與 $X_i$ 相乘後必然會有一平方項,影響估計之大小。因此我們以 $n-1$ 來做修正。上述解釋雖不嚴謹,但不失為一幫助我們理解 $n-1$ 的想法。

同理,使用 $\mu$ 而非 $\hat{\mu}$ 時,就不會有此現象。對 $(4)$ 式做相同的觀察,我們可以發現,因 $\mu$ 僅為一個常數,結果中不會有任何 $\mathbf{X}_i$ 相關的平方項出現,其式子為:

$\mathbf{X}_i^2-2\mathbf{X}_i\mu+\mu^2$

總而言之,之所以要除 $n-1$ 而非 $n$ 來計算未知平均時的樣本標準差,是因為樣本已用於估計平均,讓平均估計量 $\hat{\mu}$ 較真正的平均 $\mu$ 更接近我們的樣本,進而使得樣本對$\hat{\mu}$ 分散的程度比對 $\mu$ 分散的程度低。因此,除 $n$ 時會低估標準差,而須除 $n-1$ 來修正此一偏差。


以下為 $n-1$ 來源的詳細計算。

變異數估計式為:

$\sigma^2 = \frac{\sum_{i=1}^n(\mathbf{X_i}-\hat{\mu})}{n-1}$

變異數估計式的期望值如下:

$\begin{align} \mathbb{E}[\hat{\sigma}^2]=&\mathbb{E}\left[\frac{\sum_{i=1}^n(\mathbf{X_i}-\hat{\mu})^2}{n-1}\right]\\ =&\frac{1}{n-1}\sum_{i=1}^n\mathbb{E}\left[\mathbf{X}_i^2-2\mathbf{X}_i\hat{\mu}+\hat{\mu}^2\right] \\ =&\frac{1}{n-1}\left\{\sum_{i=1}^n\underbrace{\mathbb{E}[\mathbf{X}_i^2]}_{A}-2\sum_{i=1}^n\underbrace{\mathbb{E}[\mathbf{X}_i]\hat{\mu}}_{B}+\sum_{i=1}^n\underbrace{\mathbb{E}[\hat{\mu}^2]}_{C}\right\}\\ =&\frac{1}{n-1}\left\{n(\sigma^2 + \mu^2)-2n\frac{1}{n}(n\mu^2 + \sigma^2)+n\frac{1}{n}(\sigma^2+n\mu^2)\right\}\\ =&\frac{1}{n-1}\left\{n(\sigma^2 + \mu^2)-2(n\mu^2 + \sigma^2)+(\sigma^2+n\mu^2)\right\}\\ =&\frac{1}{n-1}\left\{(n-1)\sigma^2\right\}\\ =&\sigma^2 \end{align} $

由於 $\mathbb{E}[\hat{\sigma}^2]=\sigma^2$,$\frac{\sum_{i=1}^n(\mathbf{X_i}-\hat{\mu})}{n-1}$ 為變異數 $\sigma^2$ 之不偏估計式。

我們先計算 $A$:

$ \begin{align} &\sigma^2 = \mathbb{E}[\mathbf{X}_i^2] - \mathbb{E}[\mathbf{X}_i]^2\\ \Rightarrow & \mathbb{E}[\mathbf{X}_i^2] = \sigma^2 + \mathbb{E}[\mathbf{X}_i]^2\\ \Rightarrow & \mathbb{E}[\mathbf{X}_i^2] = \sigma^2 + \mu^2 \end{align} $

我們接著計算 $B$:

$ \begin{align} \mathbb{E}[\hat{\mu}\mathbf{X}_i]=&\mathbb{E}\left[\left(\frac{\sum_{j=1}^n\mathbf{X_j}}{n}\right)\mathbf{X}_i\right]\\ =&\frac{1}{n}\mathbb{E}\left[\sum_{j=1,i\neq j}^n [\mathbf{X}_i\mathbf{X}_j] + [\mathbf{X}_i^2]\right]\\ =&\frac{1}{n}\left[\sum_{j=1,i\neq j}^n \mathbb{E}[\mathbf{X}_i\mathbf{X}_j] + \mathbb{E}[\mathbf{X}_i^2]\right]\\ =&\frac{1}{n}\left[\sum_{j=1,i\neq j}^n \mathbb{E}[\mathbf{X}_i]\mathbb{E}[\mathbf{X}_j] + \mathbb{E}[\mathbf{X}_i^2]\right]\\ =&\frac{1}{n}\left[(n-1)\mu^2 + (\sigma^2+\mu^2)\right]\\ =&\frac{1}{n}\left[\sigma^2+n\mu^2\right] \end{align} $

有了 $B$,$C$ 就很好算了:

$\begin{align} \mathbb{E}[\hat{\mu}^2]=&\mathbb{E}\left[\frac{\sum_{i=1}^n\mathbf{X_i}}{n}\hat{\mu}\right]\\ =&\frac{1}{n}\sum_{i=1}^n\mathbb{E}\left[\mathbf{X_i}\hat{\mu}\right]\\ =&\frac{1}{n}\sum_{i=1}^n\left\{\frac{1}{n}[\sigma^2+n\mu^2]\right\}\\ =&\frac{1}{n}n\frac{1}{n}\left[\sigma^2+n\mu^2\right]\\ =&\frac{1}{n}\left[\sigma^2+n\mu^2\right] \end{align}$



附錄:

$f(c) = \sum_{i=1}^n(\mathbf{X_i}-c)^2$ 在 $c^*=\hat{\mu}$ 時為最小值之證明。

由於$f(c)$ 為一凸函數,我們解微分等於零時,變數之值。

$\begin{align} & 0 =\frac{d}{dc}f(c)\\ \Rightarrow & 0 =\frac{d}{dc}\sum_{i=1}^n(\mathbf{X_i}-c)^2\\ \Rightarrow & 0 =\sum_{i=1}^n\frac{d}{dc}(\mathbf{X_i}-c)^2\\ \Rightarrow & 0 =-\sum_{i=1}^n2(\mathbf{X_i}-c)\\ \Rightarrow & 0 =2\sum_{i=1}^n\mathbf{X_i}-2\sum_{i=1}^nc \\ \Rightarrow & 2\sum_{i=1}^nc = 2\sum_{i=1}^n\mathbf{X_i}\\ \Rightarrow & \sum_{i=1}^nc = \sum_{i=1}^n\mathbf{X_i}\\ \Rightarrow & nc = \sum_{i=1}^n\mathbf{X_i}\\ \Rightarrow & c^* = \frac{\sum_{i=1}^n\mathbf{X_i}}{n}=\hat{\mu} \end{align}$

圖片來源:http://upload.wikimedia.org/wikipedia/commons/8/8c/Standard_deviation_diagram.svg

另外,這邊也有一篇不錯的文章:http://blog.udn.com/nilnimest/92412101,從另外一個角度解釋為什麼修正 $\mu$ 是剛好要修正 $n-1$。

沒有留言:

張貼留言