主題:19 標準差 | ||
| ||
某人練習射擊,目標是紅心。有時右偏有時左偏,誤差不小,他卻說“平均命中紅心”。平均不是數據的代表值嗎?他以為他就是告訴人射擊結果的代表值。聽者很狐疑,只不過是一正一負消掉了,這樣算準嗎?顯然只知平均命中紅心並不夠,究竟偏離紅心多遠呢?令人好奇。兩腳各泡在一水桶,右腳水溫攝氏0度,左腳80度。會因平均40度,與溫泉泡湯的水溫差不多,而感到舒服嗎?恐怕未必,一腳很冰,一腳燙極了,連半分鐘都受不了。假設有兩組學生,各有3人。考完試兩組的平均都是60分,但第一組3個分數是61,60,59;第二組3個分數是90,60,30。雖平均相同,但第一組3人分數接近,第二組3人分數相差很多。大概不會因平均分數相同,而將兩組學生歸為同一類型。
收集到一些數據後,一旦算出平均值或中位數,對數據的“大小”,通常能略有些概念。不論平均值或中位數,都像數據的“核心”。數據或剛好等於核心,或散佈在核心的左右,有些較大,有些較小。如何度量散佈程度?全距及四分位距,都能扮演讓人了解數據到底散佈多廣的角色。班上最高與最矮身高之差為全距,代表全班學生的身高橫跨多大範圍。另外,有時會看到諸如“XX集團董事長XXX表示,在未來的投資機會中,應該重點投資和中產階級生活方式相關的行業”之報導。中產階級,不是很有錢,也不算很窮,收入居中。這群人,不論在政治或經濟上,都令人重視。第三四分位數減去第一四分位數,所得之四分位距,便代表扣除兩端,中間一半的數據,所橫跨範圍之大小,此量也常令人感到興趣。除了全距及四分位距外,還有一很重要,量測散佈程度的量,那就是標準差(standard deviation,又稱標準離差,或均方根差)。如果視平均值為數據的核心,標準差便是提供數據偏離此核心多遠的一個量。前面已舉了一些例子,以說明在某些情況下,光知道平均值,可能對數據仍覺模糊。標準差,便具備讓人了解數據對平均值之散佈程度的功能。
每一數據減去平均值,便是數據對平均值之離差(deviation,或說誤差)。而標準差即“數據對平均值之離差的平方之平均的正平方根”。假設有1,2,3,4,5等5數,則平均值為3。分別求出各數對平均值之離差,得-2,-1,0,1,2。先求平方,得4,1,0,1,4。再求其平均,得(4+1+0+1+4)/5=2。開根號得標準差=21/2,約為1.414。再看前述兩組學生之例。分數61,60,59那組,平均成績是60分,標準差=(2/3)1/2分,約為0.816分;至於分數90,60,30那組,平均成績仍是60分,而標準差=6001/2分,約為24.495分,是前者之30倍。第一組程度接近,第二組則程度差異不小。第二組的任課教師,可能會煩惱該如何教學。
對數字較敏銳者,說不定會好奇,為何不以“數據對平均值之離差的絕對值之平均”,來度量數據對平均值之散佈度?省去求標準差時,先平方再開根號之多此一舉。首先,由於先平方再開根號,因此標準差的單位(如分,公斤等),與原有數據相同,這是我們希望的。其次,如同數據的代表值可有不同的量,像是平均值、中位數,及眾數等,“數據對平均值之離差的絕對值之平均”,也是數據對平均值之散佈度的另一種度量法,有其意義,是有人採用。若依此定義,對於1,2,3,4,5等5數,將得(2+1+0+1+2)/5=1.2一值做為數據對平均值之散佈度,比標準差21/2小些。這新的定義,看起來讓計算較簡單,尤其當數據較大量時。不過一方面,數學上處理絕對值的運算,通常比平方麻煩許多;另一方面,標準差有很多好的性質。因此在統計學裡,仍大多以標準差,來表示數據對平均值之散佈度。
標準差的平方,即“數據對平均值之離差的平方之平均”,即不開平方了,便稱數據的變異數(variance),也是一常用的量。平均值是數據的平均,變異數則為數據與平均值之距離的平方之平均,兩者都是平均。假設有n筆數據x1,x2,…,xn,且以`x表其平均值,即`x=(x1+x2+…+xn)/n。則
((x1-`x)2+(x2-`x)2+…+(xn-`x)2)/n
為變異數;開根號後,即得標準差
( ((x1-`x)2+(x2-`x)2+…+(xn-`x)2)/n )1/2。
如有1,1,1,1,1等5數,則平均值等於1,且易見標準差等於0,因此變異數也是0。常數數列(即所有數據都相等)沒有變異,所以其標準差與變異數都是0。除了常數數列外,數據之標準差與變異數都是正的。數據若都相距不遠,即變異不太大,則標準差與變異數便都較小。變異較大的一組數據,標準差與變異數便都較大。數據若平移,譬如都加一定值a,也就是原本的x1,x2,…,xn,改為x1+a,x2+a,…,xn+a,則平均值由原本的`x變成`x+a。而因在求離差時,a消掉了,所以標準差及變異數都不變。又若每一數據都乘上一定值b,則平均值由原本的`x變成b`x,至於標準差則成為b倍,變異數成為b2倍。
既然是量測離差,那標準差是否愈小愈好?如果是涉及產品品質,標準差當然要儘量小。例如,螺絲規格,若宣稱直徑8mm,則平均值不但最好是
考完試,常會給出成績之平均值及標準差。對大型考試,如果題目設計良好,成績大致有常態分佈,以平均值為中心。對於常態分佈,成績不超過平均值一個標準差的考生,約佔68%;不超過平均值兩個標準差的考生,約佔95%。例如,假設平均為63.5分,標準差為10.7分,則約有68%的考生,成績介於52.8至74.2分間;約有95%的考生,成績介於42.1至84.9分間。成績超過平均值兩個標準差的考生,便有5(=100-95)%。由於常態分佈的曲線以平均值為中心,左右對稱,所以成績若在84.9分之上,表示他考在前2.5%(5%之半),相當優異;若在42.1分之下,表示他考在後2.5%,算是很差的。標準差與平均值,是了解數據之兩個很關鍵的量。
|
2017年2月23日 星期四
標準差 deviation 說明之一
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言