Processing math: 100%

2013-10-14

為什麼樣本標準差是除 n1




不知道大家在高中數學或大學研究所的統計課中,有沒有想過,為什麼標準差 (standard deviation) 的估計式 (estimator)(又稱:樣本標準差、子體標準差)、變異數 (variance) 的估計式是:

(1) ˆσ=ni=1(Xiˆμ)n1
(2) ˆσ2=ni=1(Xiˆμ)n1

而已知平均時的標準差與變異數估計卻是:

(3) σ=ni=1(Xiμ)n
(4) σ2=ni=1(Xiμ)n

這個 nn1 的差異,到底是怎麼來的?

今天我們要討論的皆為估計式。我在用白話文告訴你:「什麼是統計?」一文中提及,估計母數的算式為估計式。樣本標準差(標準差估計式)利用一組隨機從母體中抽出獨立的 n 筆資料:

X1Xn

來估計母體標準差。同樣,變異數估計式則是用於估計母體變異數。如果你學過機率,以上 X1Xn 都是隨機變數。

以下我們將針對變異數討論,所有論述只要取根號即可得標準差之結論。

我們先細看 (2)(4) 式,比較後發現,除了 nn1 的差異以外,(2) 使用了平均的估計式 ˆμ(4) 使用了真正的平均 μ。為什麼使用平均的估計式:

(5) ˆμ=ni=1Xin

會低估標準差,而需靠 n1 來修正呢?

標準差以平均為中心,衡量資料分散的程度,而樣本的平均自然是比真正的平均更接近樣本,所以分散程度程度較低,須做修正。以上論述意即 (2) 式的分子小於 (4) 式的分子。要證明上述,我們先證明 f(c)=ni=1(Xic)c=ˆμ 時為最小值,進而得到 c=μ,而 cˆμ 時,f(μ)f(ˆμ)。證明寫於文末附錄。

我們現在知道使用平均估計式 ˆμ 得到的樣本標準差,比使用真正的平均 μ 來得小。但是到底小多少呢?接下來我們要來計算,使用 ˆμ 時,我們到底會低估我們的標準差多少。

用白話文告訴你:「什麼是統計?」一文中,我們有提及「偏差」的概念。估計式高估或低估母數時,我們稱之為有偏估計式,反之則稱為不偏估計式。數學上,有偏估計式之期望值不等於母數時,不偏估計式之期望值等於母數。

以平均的估計式而言:

(5) ˆμ=ni=1Xin

我們可以計算平均估計式 ˆμ 的期望值,檢驗其是否等於母數 μ

E[ˆμ]=1nni=1E[Xi]=1nnμ=μ

由於 E[ˆμ]=μ,我們可以說 ni=1Xin 為平均之不偏估計式。

接下來我們來到今天的正題,變異數估計式與其偏差。變異數的估計式較為複雜,計算也較為繁瑣,以下我已盡可能列出每一個步驟,力求清晰。

先不管那些只要有耐心就可以算出來的數學,我們來想想,到底是哪個環節,讓我們使用 ˆμ 的時候,會需要修正我們的估計式。我們先觀察變異數分母中的第 i 項:

(Xiˆμ)2

若將其展開,則得到:

(6) X2i2Xiˆμ+ˆμ2

此時,後兩項與 ˆμ 相關。若將 (5) 式帶入,我們可以得到:

X2i2Xinj=1Xjn+ni=1Xinnj=1Xjn

其中有許多項形式為 X2i。這個有什麼問題呢?一個平方數不可能為負數。經過嚴謹的計算後(詳細如下),我們可以從 (6) 式的後半: 2Xiˆμ+ˆμ2  得到許多負的平方項,意即 (6) 式的後半實際上減掉了許多一定會大於零的數。此差異對變異數估計的影響,可從文末的計算得知,剛好為 (4) 式的 1n 倍,意即未知平均時的變異數估計量為已知平均時的 n1n 倍。此 n1 可由以下解釋:每次 Xiˆμ 相乘時,由於ˆμ=ni=1Xin 分母的 n 項中有一項是 Xi,與 Xi 相乘後必然會有一平方項,影響估計之大小。因此我們以 n1 來做修正。上述解釋雖不嚴謹,但不失為一幫助我們理解 n1 的想法。

同理,使用 μ 而非 ˆμ 時,就不會有此現象。對 (4) 式做相同的觀察,我們可以發現,因 μ 僅為一個常數,結果中不會有任何 Xi 相關的平方項出現,其式子為:

X2i2Xiμ+μ2

總而言之,之所以要除 n1 而非 n 來計算未知平均時的樣本標準差,是因為樣本已用於估計平均,讓平均估計量 ˆμ 較真正的平均 μ 更接近我們的樣本,進而使得樣本對ˆμ 分散的程度比對 μ 分散的程度低。因此,除 n 時會低估標準差,而須除 n1 來修正此一偏差。


以下為 n1 來源的詳細計算。

變異數估計式為:

σ2=ni=1(Xiˆμ)n1

變異數估計式的期望值如下:

E[ˆσ2]=E[ni=1(Xiˆμ)2n1]=1n1ni=1E[X2i2Xiˆμ+ˆμ2]=1n1{ni=1E[X2i]A2ni=1E[Xi]ˆμB+ni=1E[ˆμ2]C}=1n1{n(σ2+μ2)2n1n(nμ2+σ2)+n1n(σ2+nμ2)}=1n1{n(σ2+μ2)2(nμ2+σ2)+(σ2+nμ2)}=1n1{(n1)σ2}=σ2

由於 E[ˆσ2]=σ2ni=1(Xiˆμ)n1 為變異數 σ2 之不偏估計式。

我們先計算 A

σ2=E[X2i]E[Xi]2E[X2i]=σ2+E[Xi]2E[X2i]=σ2+μ2

我們接著計算 B

E[ˆμXi]=E[(nj=1Xjn)Xi]=1nE[nj=1,ij[XiXj]+[X2i]]=1n[nj=1,ijE[XiXj]+E[X2i]]=1n[nj=1,ijE[Xi]E[Xj]+E[X2i]]=1n[(n1)μ2+(σ2+μ2)]=1n[σ2+nμ2]

有了 BC 就很好算了:

E[ˆμ2]=E[ni=1Xinˆμ]=1nni=1E[Xiˆμ]=1nni=1{1n[σ2+nμ2]}=1nn1n[σ2+nμ2]=1n[σ2+nμ2]



附錄:

f(c)=ni=1(Xic)2c=ˆμ 時為最小值之證明。

由於f(c) 為一凸函數,我們解微分等於零時,變數之值。

0=ddcf(c)0=ddcni=1(Xic)20=ni=1ddc(Xic)20=ni=12(Xic)0=2ni=1Xi2ni=1c2ni=1c=2ni=1Xini=1c=ni=1Xinc=ni=1Xic=ni=1Xin=ˆμ

圖片來源:http://upload.wikimedia.org/wikipedia/commons/8/8c/Standard_deviation_diagram.svg

另外,這邊也有一篇不錯的文章:http://blog.udn.com/nilnimest/92412101,從另外一個角度解釋為什麼修正 μ 是剛好要修正 n1

沒有留言:

張貼留言