為什麼統計的樣本標準差計算要除(n-1)而母體標準差則除n?

為什麼統計樣本標準差除(n-1)而母體標準差則除n?

相信這也是許多人的疑問,為什麼統計學在計算母體標準差樣本標準差的時候要分別除以n與(n-1)呢?

一般人大概可以理解母體標準差除以n的道理,因為總共有n筆資料。

那為什麼計算樣本標準差時就要把分母減去1,就是除以(n-1)呢?

回答這個問題前請先想想看,當同一數值同時除以n及(n-1)時,除以(n-1)所得出來的數值是否會比較大?答案是肯定的,因為樣本的標準差是總體標準差的估計值(你問工作熊為什麼是「估計值」…?因為是「抽樣」的關係啊。比如說全校學生共有500人,抽樣50人,取身高來代表全校學生的身高,也就是用50人的身高來推估500人的身高,雖然50個人可以大致代表全校學生,但究竟還是跟實際計算500人的身高數值會稍有不同,也就是說兩者不會一模一樣)。







所以,由樣本計算出來的標準差終究不是整體實際的標準差,也就是說樣本標準差是個不確定的數值。一般來說嚴謹的工程人員在估計數值的時候總是會比較偏保守,當他無法準確的計算出一個數值時,就寧願讓數值偏向較差的方向,也就是樣本標準差會高估總體標準差,以取得保險,免得到時出錯造成損失。於是,將之除以一個較小的分母(n-1)就可以讓我們做到這一點。標準差越大表是製程能力越差,除以(n-1)會讓數值變大。

其實,如果樣本的數量越大,那麼除以n和除以(n-1)的差異將會越趨於一致。換句話說,其所引起的「量變」不大,但是它們卻有著「有偏估計」與「無偏估計」的「質變」。所以,一般我們在計算樣本標準差時總會要求數據量至少要大於25個,或大於30個,數據當然越多越好,只是為了取得實用與經濟的平衡點不得不取一個建議的數量。因此,樣本標準差公式取的是除以(n-1),只有當它除以(n-1)時,得出的結果才會是「無偏估計」。

另外,還可以使用「自由度」(Degree of Freedom)來解釋為何要除以(n-1),但比較抽象,大概很多人會看不懂。由於母體的每個資料都是一個可以自由變動的獨立資料,所以自由度取n沒有問題。但是,當使用樣本來推估母體時,必須符合「無偏推估性」,因為樣本平均值(X-bar)基本上已經可以從抽樣的n筆資料中先被計算出來,故只要知道(n-1)筆抽樣資料,剩下的那一筆資料,其實可經由與(X-bar)計算推導而來,這一筆資料就變成被限制住,喪失自由度的資料,所以自由度就變成(n-1)。大概是這樣,其實工作熊自己也沒弄懂多少。

有興趣的可以參考下面兩份資料,不過不一定看得懂就是了:


回》SPC、Cpk、製程能力之解說與整理

延伸閱讀:
柏拉圖分析 (Pareto Chart)介紹
如何使用Excel2007製作柏拉圖(Pareto chart)
標準差與常態分佈的關係(six sigma)
如何使用Excel2007建立常態分布曲線圖表
製程能力介紹 ─ Cpk之製程能力解釋
六個標準差(six sigma)運用於日常生活

訪客留言內容(Comments)

No comments yet.


訪客留言注意事項:
1.首次留言須通過審核後內容才會出現在版面上,請不要重覆留言。
2.留言時請在相關主題文章下留言,與主題不相關的留言將會被視為垃圾留言,請善加利用【搜尋框】尋找相關文章,找不到主題時請在「水平選單」的「留言板」留言。
3. 留言前請先用【搜尋框】尋找相關文章,自己做一點功課後再留言。沒有前因後果的內容,工作熊不一定會瞭解你在說什麼,就更無法回答你的問題。
4. 工作熊並非某一方面的專家,所以回答的內容或許會有不正確的地方,服用前還請三思。如果您想詢問關於電路板方面的工程問題,前先參考這篇文章【詢問工程問題,請提供足夠的資訊以利有效回答】 把自己的問題想清楚了再來詢問,並且請提供足夠的資訊,這樣才能有效回答問題。
5. 工作熊每則留言都會看,但不會每則留言都回答,尤其是只有問候之類的內容。
6. 留言詢問時請注意您的態度,工作熊不是你的「細漢」,更沒有拿你的薪水,所以不接受吆喝工作熊的態度來回答你的問題。
7. 歡迎您訂閱本部落格的最新文章,當有新文章時會主動以電子郵件通知你。

您有話要說(Leave a comment)

(required)

(required)