(1) ˆσ=√∑ni=1(Xi−ˆμ)n−1
(2) ˆσ2=∑ni=1(Xi−ˆμ)n−1
而已知平均時的標準差與變異數估計卻是:
(3) σ=√∑ni=1(Xi−μ)n
(4) σ2=∑ni=1(Xi−μ)n
這個 n 與 n−1 的差異,到底是怎麼來的?
今天我們要討論的皆為估計式。我在用白話文告訴你:「什麼是統計?」一文中提及,估計母數的算式為估計式。樣本標準差(標準差估計式)利用一組隨機從母體中抽出獨立的 n 筆資料:
X1…Xn
來估計母體標準差。同樣,變異數估計式則是用於估計母體變異數。如果你學過機率,以上 X1 到 Xn 都是隨機變數。
以下我們將針對變異數討論,所有論述只要取根號即可得標準差之結論。
我們先細看 (2) 與 (4) 式,比較後發現,除了 n 與 n−1 的差異以外,(2) 使用了平均的估計式 ˆμ 而 (4) 使用了真正的平均 μ。為什麼使用平均的估計式:
(5) ˆμ=∑ni=1Xin
會低估標準差,而需靠 n−1 來修正呢?
標準差以平均為中心,衡量資料分散的程度,而樣本的平均自然是比真正的平均更接近樣本,所以分散程度程度較低,須做修正。以上論述意即 (2) 式的分子小於 (4) 式的分子。要證明上述,我們先證明 f(c)=∑ni=1(Xi−c) 在 c∗=ˆμ 時為最小值,進而得到 c=μ,而 c≠ˆμ 時,f(μ)≥f(ˆμ)。證明寫於文末附錄。
我們現在知道使用平均估計式 ˆμ 得到的樣本標準差,比使用真正的平均 μ 來得小。但是到底小多少呢?接下來我們要來計算,使用 ˆμ 時,我們到底會低估我們的標準差多少。
在用白話文告訴你:「什麼是統計?」一文中,我們有提及「偏差」的概念。估計式高估或低估母數時,我們稱之為有偏估計式,反之則稱為不偏估計式。數學上,有偏估計式之期望值不等於母數時,不偏估計式之期望值等於母數。
以平均的估計式而言:
(5) ˆμ=∑ni=1Xin
我們可以計算平均估計式 ˆμ 的期望值,檢驗其是否等於母數 μ:
E[ˆμ]=1nn∑i=1E[Xi]=1nnμ=μ
由於 E[ˆμ]=μ,我們可以說 ∑ni=1Xin 為平均之不偏估計式。
接下來我們來到今天的正題,變異數估計式與其偏差。變異數的估計式較為複雜,計算也較為繁瑣,以下我已盡可能列出每一個步驟,力求清晰。
先不管那些只要有耐心就可以算出來的數學,我們來想想,到底是哪個環節,讓我們使用 ˆμ 的時候,會需要修正我們的估計式。我們先觀察變異數分母中的第 i 項:
(Xi−ˆμ)2
若將其展開,則得到:
(6) X2i−2Xiˆμ+ˆμ2
此時,後兩項與 ˆμ 相關。若將 (5) 式帶入,我們可以得到:
X2i−2Xi∑nj=1Xjn+∑ni=1Xin∑nj=1Xjn
其中有許多項形式為 X2i。這個有什麼問題呢?一個平方數不可能為負數。經過嚴謹的計算後(詳細如下),我們可以從 (6) 式的後半: −2Xiˆμ+ˆμ2 得到許多負的平方項,意即 (6) 式的後半實際上減掉了許多一定會大於零的數。此差異對變異數估計的影響,可從文末的計算得知,剛好為 (4) 式的 1n 倍,意即未知平均時的變異數估計量為已知平均時的 n−1n 倍。此 n−1 可由以下解釋:每次 Xi 與 ˆμ 相乘時,由於ˆμ=∑ni=1Xin 分母的 n 項中有一項是 Xi,與 Xi 相乘後必然會有一平方項,影響估計之大小。因此我們以 n−1 來做修正。上述解釋雖不嚴謹,但不失為一幫助我們理解 n−1 的想法。
同理,使用 μ 而非 ˆμ 時,就不會有此現象。對 (4) 式做相同的觀察,我們可以發現,因 μ 僅為一個常數,結果中不會有任何 Xi 相關的平方項出現,其式子為:
X2i−2Xiμ+μ2
總而言之,之所以要除 n−1 而非 n 來計算未知平均時的樣本標準差,是因為樣本已用於估計平均,讓平均估計量 ˆμ 較真正的平均 μ 更接近我們的樣本,進而使得樣本對ˆμ 分散的程度比對 μ 分散的程度低。因此,除 n 時會低估標準差,而須除 n−1 來修正此一偏差。
以下為 n−1 來源的詳細計算。
變異數估計式為:
σ2=∑ni=1(Xi−ˆμ)n−1
變異數估計式的期望值如下:
E[ˆσ2]=E[∑ni=1(Xi−ˆμ)2n−1]=1n−1n∑i=1E[X2i−2Xiˆμ+ˆμ2]=1n−1{n∑i=1E[X2i]⏟A−2n∑i=1E[Xi]ˆμ⏟B+n∑i=1E[ˆμ2]⏟C}=1n−1{n(σ2+μ2)−2n1n(nμ2+σ2)+n1n(σ2+nμ2)}=1n−1{n(σ2+μ2)−2(nμ2+σ2)+(σ2+nμ2)}=1n−1{(n−1)σ2}=σ2
由於 E[ˆσ2]=σ2,∑ni=1(Xi−ˆμ)n−1 為變異數 σ2 之不偏估計式。
我們先計算 A:
σ2=E[X2i]−E[Xi]2⇒E[X2i]=σ2+E[Xi]2⇒E[X2i]=σ2+μ2
我們接著計算 B:
E[ˆμXi]=E[(∑nj=1Xjn)Xi]=1nE[n∑j=1,i≠j[XiXj]+[X2i]]=1n[n∑j=1,i≠jE[XiXj]+E[X2i]]=1n[n∑j=1,i≠jE[Xi]E[Xj]+E[X2i]]=1n[(n−1)μ2+(σ2+μ2)]=1n[σ2+nμ2]
有了 B,C 就很好算了:
E[ˆμ2]=E[∑ni=1Xinˆμ]=1nn∑i=1E[Xiˆμ]=1nn∑i=1{1n[σ2+nμ2]}=1nn1n[σ2+nμ2]=1n[σ2+nμ2]
附錄:
f(c)=∑ni=1(Xi−c)2 在 c∗=ˆμ 時為最小值之證明。
由於f(c) 為一凸函數,我們解微分等於零時,變數之值。
0=ddcf(c)⇒0=ddcn∑i=1(Xi−c)2⇒0=n∑i=1ddc(Xi−c)2⇒0=−n∑i=12(Xi−c)⇒0=2n∑i=1Xi−2n∑i=1c⇒2n∑i=1c=2n∑i=1Xi⇒n∑i=1c=n∑i=1Xi⇒nc=n∑i=1Xi⇒c∗=∑ni=1Xin=ˆμ
圖片來源:http://upload.wikimedia.org/wikipedia/commons/8/8c/Standard_deviation_diagram.svg
另外,這邊也有一篇不錯的文章:http://blog.udn.com/nilnimest/92412101,從另外一個角度解釋為什麼修正 μ 是剛好要修正 n−1。
沒有留言:
張貼留言