code

2017年1月23日 星期一

Statistics筆記19 - Confidence Interval for mean

定義

某個population parameter的一個“可信的plausible的數值範圍”,稱為confidence interval,簡稱CI。

使用CI的原因是,我們如果只用sample statistics (point estimate)想要infer population statistics的話,這精準度相當困難,但是用一個可能區間的話,那就比較容易包含真正的population parameters,雖然仍然不知道真正的parameter會是什麼。


95% CI

CLT告訴我們:sampling distribution (如果是sample mean組成的話)約是一個nearly normal,而且中心點是population mean的normal distribution:

所以要釐清的是,我們的sampling distribution不是真正的population distribution,真正的population distribution可能是非常skewed,但是sampling distribution會隨著n變大變得normal。所以這個nearly normal distribution的mean不是確切的population mean,這只是一個逼近。



所以既然我們只能從sampling distribution來推估population mean,那這個真正的population mean應該就是落入這個sampling distribution的mean的正負區間內。

normal distribution告訴我們,各個sample mean可能落入的區間如下:


所以這就產生了我們常聽見的95% confidence interval:

因為有95%的sample means會落入正負2個sampling distribution SD (standard error)之內。這2*standard error有個專有名詞,稱為margin of  error(ME)of 95% CI。


範例


這邊轉成統計的數字的話:

首先提到了standard error = 4%,這代表這是一個sampling distribution,所以是nearly normal

所以64.5%就代表了mean

margin of error = 2*se = 8%,這邊z*是2因為是95% CI。

所以95% CI = 64.5% +- 8%,我們有95%的信心這是population mean可能的範圍。


CI的使用限制

1. 既然是CLT演變出來的,則必須每個sample要是independent,建議 n < 10% population,如果sample without replacement。

2. n至少>= 30,越skew越需要大的n值才能讓distribution nearly normal。注意這個條件比CLT需要成立的條件還嚴苛得多,理由後述。


95% CI 的確切的z*(距離mean的standard error倍數)值為1.96

95% CI的真正意義就是normal distribution的中心點往左右擴張margin or error的幅度的range,這個range要能包含剛好95%data。

我們之前說95% CI的margin of error = 2SD,不過實際上應該是1.96*SD,見下圖:


中間著色機率(或說data佔比)= 0.95
所以兩個tail應該各佔 (1-0.95)/2 = 0.025的機率

我們可以找出cutoff value for 0.025機率: qnorm(0.025) = -1.96
這是P(X <= -1.96) = 0.025
由於對稱的關係,另一端cutoff value是 1.96

所以z* = 1.96

我們說 we are 95% confident that population mean falls within sample mean +- 1.96 SD。


沒有留言:

張貼留言