2013-10-13

用白話文告訴你:「什麼是統計?」


統計在任何牽扯到數字的學門之中都不可或缺,醫學、自然科學、工程學、生物學、甚至是人文社會科學中都可看到統計的足跡。統計究竟為什麼重要?統計能告訴我們什麼?我們該如何理解統計的脈絡?我們又該如何學習統計學?這些可能都是你心中的疑惑,別急,讓我一一向你解釋。

為什麼要統計,到底在統計什麼?
統計透過分析「有限」的資料,擷取自己有想知道的資訊:未知資料的模樣、全盤大勢、甚至是未來的預測。舉例而言,我們熟悉的總統大選民調,通常雖僅調查數千人的意向,卻能宣稱自己的民調結果,有 95% 的機率是對的。或是醫生可透過數百名病人的狀況,推測人類共同擁有的疾病特徵。這些都是統計中最實際而與我們息息相關的例子。統計學就是教我們如何做出這些結論,並且告訴我們該多相信這些結論。

為什麼要抽樣,怎麼抽樣?
統計讓我們能見微知著,但要先能見微才能知著。我們不憑空臆測,而透過蒐集「樣本」(sample) 來做推論。一個樣本是「蒐集到的一筆資料」的正式名稱,而蒐集樣本的過程則稱為「抽樣」(sampling)。我們必須從我們想推論的群體中抽出樣本,且希望樣本是相互「獨立」的 (independent)。如果我們做總統大選民調時,只對台北市民抽樣,這些的樣本當然也就不能代表全台灣人了。這時這組樣本就是有「偏差」(bias) 的。

同樣在總統大選民調中,若我們抽樣時,總是詢問一整家的人,又若家人之間會互相影響彼此的投票傾向,知道其中一人的傾向以後,我們便能推斷其他人的投票傾向。最後即使我們蒐集了一千個樣本,實際上卻因家人間會互相影響,我們早已未卜先知其中幾百人的回覆。這些被猜到的回答只是重複我們已知的資訊,無法讓我們了解更多人「不同」的意見,就像當你問朋友一個問題時,朋友只是不停重複你早就知道的答案一樣,無法提供更多資訊。若樣本間不獨立,即使蒐集了一千個樣本,實際上也只有數百人的資訊量。

要從哪裡抽樣?我們到底想知道什麼?
現在我們知道如何抽樣,也從我們有興趣的群體中抽出了一些獨立的樣本,我們可以從樣本中得到怎麼樣的結論、又該如何分析來得到這些結論呢?總統民調機構想了解候選人的得票比例、醫生想了解黃種人心臟病的主因。我們想了解的不外乎「某特定群體全體的資料」的「特質」。「某特定群體全體的資料」在統計中稱為「母體」(population) 而其特質稱為「母數」(parameter)。比方說美國男生身高(母體)平均 175 公分(母數),九三年指考國文分數(母體)平均 58 分(母數)。我們有興趣的對象有時更廣,比方說「(全)人類的平均身高」或「投擲(任何)硬幣得到正面的機率」。

母體、母數到底是什麼?
母數以一個或一組數字,量化描述母體中資料的模樣。不同類型的資料,由於產生的自然現象不同,會用不同的母數來描述。比方說一不公正六面骰的母數描述骰到一到六的機率;又比方說人類的身高,因基因排列組合的緣故,會使用「平均」(mean) 與「標準差」(standard deviation) 來描述。當我們說美國男生平均身高 175 公分、標準差 5 公分時,我們就已經完全了解美國男生身高母體的模樣了:有 68% 的人在平均上下一個標準差之間:170 - 180 公分、有 95% 的人在平均上下兩個標準差之間:165 - 185 公分、有 99.7% 的人介於平均上下三個標準差之間:160-190 公分。

什麼是分布?
統計稱資料的模樣稱為「分布」(distribution)。母數即描寫母體資料之分布,想知道母體的分布就必須要知道母體的母數。知道母數以後,我們便可了解一資料在母體中之位置、了解一樣本是否「異常」,甚至推測樣本的抽樣來源。舉例而言,我們知道身高的平均與標準差後,即可知道自己跟其他人比起來,是高是矮。我們亦可利用多組大選的民調結果,來推測每一民調機構背後的政治傾向,比方說若有一民調之某黨支持度特別高,異於其他民調結果,則可合理推測該民調機構特別偏愛該政黨。

什麼是估計?
我們現在已經了解母數的用意了,但要如何知道一個母體的母數呢?我們可以利用手中的樣本來「估計」母數,估計用的式子稱為「估計式」(estimator),而估計的值則稱為「估計量」(estimate)。比方說,如果我們想估計一個不公正六面骰每一面出現的機率(母數),我們可以投擲六面骰 100 次,並記錄結果(抽樣),得到 100 組資料(樣本)。接著我們就可以說,骰子每一面出現的機率為抽樣中該面出現的比例(估計式),如果「一點」出現了 20 次,我們就估計一點的機率為 20%(估計量),其餘點數則依此類推。至於不同的母數,如描述身高的平均與標準差,我們則會使用不同的估計式。

估計式的好壞,該怎麼判斷?
什麼是好的估計式呢?什麼又是壞的估計式呢?估計式的好壞的標準依情境而定,我們在此介紹一個常見的標準:估計式的準確度。我們可以從兩個角度出發:其一,估計式是否有「偏差」?偏差可想像為偏見,一個對母數有偏見的估計式,會高估或低估母數。舉例而言,做總統民調時,若無論樣本為何,都刻意增加一候選人的支持度,並刻意減少另一候選人的支持度,此估計式就是一個有偏差的估計式。嚴格來說,一個「不偏」(unbiased) 估計式的期望值等於母數,反之則為「有偏」(biased) 估計式。意即我們期望不偏估計式會給我們正確的母數,而期望有偏估計式會高估或低估母數。

其二,估計量受抽樣影響的程度樣本的平均做為估計量,就算第一個樣本不理想,我們仍有 999 個樣本可以修正第一個樣本對估計量的影響,就算第二個樣本也不好,我們仍有 998 個樣本可以修正估計量。全部樣本的平均較不會被少數罕見樣本影響,因此,使用全部樣本比使用單一樣本計算估計量好。你可能會問,有沒有可能 1000 次抽樣都抽到罕見的樣本,這時估計量不就還是不準嗎?沒錯,這不是不可能的,此時的估計量也的確會不準,但就像沒有人會連續中 1000 次大獎一樣,連續抽到 1000 個罕見的樣本,比只抽一次就抽到罕見的樣本(中一次大獎)的機會小很多。一般而言,計算不偏估計量時,使用越多的樣本將帶給我們越多資訊,估計量不準的機會也就越小,也就越接近母數。因此,樣本是多多益善,永遠不嫌多。

我的估計有多準?

我們使用越多樣本時,我們的估計量就越不容易受到罕見的資料影響,我們的估計也就更加準確。但到底有多準呢?若我們從樣本估計台灣男生的平均身高是 171.5 公分,我們能從以上敘述,對實際上的平均下什麼結論呢?我們該說實際平均就是 171.5 公分,還是 172 公分或 170 公分呢?我們知道當樣本越多時,每一個樣本對估計量的影響就越小,也就是說,新加一個樣本時,估計量跳動的不確定性也就越小。直到我們有非常非常多樣本時,我們的估計量已經幾乎不會再因新樣本而有所變動了。因此,若我們此時還是停留在 171.5 公分,那真正的平均身高也必然八九不離十了。

如何量化我們的準確度?
但若我們只抽 10 人為樣本,樣本平均為 172 公分,由於樣本還不多,估計量還有很大的機會四處跳動,我們只能說,由於不確定性仍然很高,繼續觀察下去的話,我們的估計量有「很大的的機率」會落在 172 公分「附近」。我們可以從統計學得知「很大的機率」是多大,「附近」又是多近,並且依此表達一估計量的準確度。此一機率在統計中稱為「信心水準」(confidence),而可能落在的區間則稱為「信賴區間」(confidence interval)。「171-173 公分,信心水準 95%。」就是說,你可以相信我,有 95% 的機會,真正的平均身高會與我們的估計相近,落在 171-173 公分之間。由於估計量的變動會隨樣本數減少,在同一信賴水平下,表示估計量的不確定性的「信賴區間」也就會隨之變小。當我們有非常非常多樣本時,若估計量仍為 172 公分,95% 信心水準的信賴區間可能就會是 171.96 - 172.04 公分了,也就是說有 95% 的機會,真正的身高平均會落在 171.96 - 172.04 公分之間

我已經會估計了,還有什麼要知道的嗎?
到此,我們已學會如何抽樣、如何估計,如何衡量估計式的好壞,只要是估計母數的問題,我們已無不能迎刃而解了。估計母數的情境中,母數是未知,但我們確定「我們是從該母體中抽樣的」,因此我們可以從抽樣來推測未知的母數。

現在把問題反過來,我們已知母數,而想要知道我們的抽樣是否從該母體而來。這時我們又該怎麼做呢?如果我們有一組身高樣本,卻不知道是男生的身高,還是女生的身高。如果我們知道男生的平均身高是 172 公分,我們樣本的平均卻是 168 公分,我們能因這 4 公分之差就說:「這絕對不是男生的身高樣本」嗎?還是我們可以說因為 4 公分不多,所以這就一定是男生的身高樣本嗎?又如減肥廣告說:「8 個吃了減肥藥的人,與另外 8 個吃安慰劑人相比,平均瘦了 0.7 公斤」我們要怎麼判斷這是「有效的藥物」還是「無效的藥物」呢?又如補習班廣告說:「甲老師的 1000 個學生,平均其他老師的學生多了 5 分」到底只是甲老師的學生運氣比較好,還是甲老師真的比較會教學呢?統計中,透過資料分析回答「我們的樣本到底屬不屬於該母體」的過程稱為「假設檢定」。

什麼是假設檢定?
假設檢定透過資料分析,判斷樣本是否屬於某母體。例如:「甲老師的學生的平均,到底是不是跟其他學生一樣?」、「吃減肥藥的人,平均體重變化是否跟其他人一樣?」。假設檢定時,我們依照想研究的問題,列出兩個敘述:其一,表示大眾的保守立場:「沒什麼不同、沒什麼幫助」的「虛無假設」(null hypothesis);其二,我們希望透過數據證明「有差、有幫助」的「對立假設」(alternative hypothesis)。

假設檢定的目的為何?
「假設檢定」檢定我們的抽樣是「虛無假設」還是「對立假設」。以上述兩個例子而言,「甲老師並沒有特別會教」、「減肥藥無效」為虛無假設,「甲老師比較會教」、「減肥藥有效」為對立假設。假設檢定從最保守的角度出發,試圖證明抽樣並非來自「虛無假設的母體」、否定「虛無假設」,進而證明「對立假設」為真。我們成功證明對立假設時,我們說「拒絕虛無假設」,告訴大家:「其實大家的認知是不對的。」;若我們無法證明「虛無假設」為非,意即無法證明對立假設成立,我們則說「無法拒絕虛無假設」,表示我們雖然無法證明眾人的認知不對,但我們仍保持存疑。進行假設檢定分析的目的即在想辦法「拒絕虛無假設」,而說服大眾「對立假設」為真。

要如何「拒絕虛無假設」呢?
我們該以什麼標準來拒絕虛無假設呢?我們要告訴大家:「根據我們的樣本,我們的抽樣來源幾乎不可能是大家所認為的母體。」以上述例子而言,這就像是告訴大家「若甲老師上課真的無效,我們應當找不到這麼多進步,又進步這麼多的學生。」、「若是減肥藥無效,怎麼可能有這麼多人都瘦了,而且又瘦這麼多?」。因此,我們以「樣本從虛無假設母體而來的機率的高低」為拒絕或不拒絕虛無假設的標準。此機率僅與樣本、虛無假設母數相關。該機率的算式中,與樣本、虛無假設母數相關的部分即為關鍵,我們稱之為「統計量」。意即,只要知道了統計量,我們就知道我們的樣本從虛無假設中抽出的機率了。統計量的算法根據資料的類型、想要檢定的母數而定。

要怎麼運用統計量?
與估計量相似,我們希望「統計量」不要輕易受到罕見樣本影響。因此我們希望有更多的樣本,給我們更多的資訊,讓我們更能確保結論不是從罕見樣本而來。有了統計量以後,我們便知道在虛無假設下,抽到我們的樣本的機率。若此機率小於 5%,我們可以說我們有 95% 的「信心水準」來「拒絕虛無假設」。信心水準即為我們結論正確的機率。但若我們的樣本從虛無假設母體中抽出的機率不低,如 40%,雖然我們可以說有 60% 的信心「拒絕虛無假設」,但 60% 遠不及 95% 有說服力,此時通常我們便會選擇「不拒絕虛無假設」。界定拒絕還是不拒絕虛無假設的標準,取決於統計的目的與問題的本質,通常 95% 是一個常見的標準,但有些情況下 90% 就有足夠的說服力了。有些嚴謹的科學研究,如 2013 諾貝爾物理獎人研究上帝粒子 Higgs boson 時,絲毫不敢馬虎,直到達到 99.99994% 的信心水準時,才正式宣布發現該粒子。

恭喜你畢業了!
讀到這裡,你已經了解統計的精神、統計可以幫我們做什麼、我們又該如何理解統計了。統計就是一個資料(抽樣、樣本)與模型(母體、母數)互動(估計、假設檢定)的學問,透過這些互動,我們可以推測真相、了解真相、證明真相。學習、實行統計時,我們務必要知道我們的資料的來源、抽樣的方式是否合乎目標、思考我們的模型的真實性、選擇正確的方法、了解為什麼要檢定還是估計、為什麼要用這個而不是那個估計式或統計量、最重要的,知道自己為什麼可以得到這個結論,又該多相信這個結論多少。當你未來再度看到總統民調、商品廣告,你便能了解他們數據背後的意義,做一個更有智慧而獨立思考的人!

致謝:
感謝李彥寰的多處指正。

沒有留言:

張貼留言