定義
某個population parameter的一個“可信的plausible的數值範圍”,稱為confidence interval,簡稱CI。使用CI的原因是,我們如果只用sample statistics (point estimate)想要infer population statistics的話,這精準度相當困難,但是用一個可能區間的話,那就比較容易包含真正的population parameters,雖然仍然不知道真正的parameter會是什麼。
95% CI
CLT告訴我們:sampling distribution (如果是sample mean組成的話)約是一個nearly normal,而且中心點是population mean的normal distribution:所以要釐清的是,我們的sampling distribution不是真正的population distribution,真正的population distribution可能是非常skewed,但是sampling distribution會隨著n變大變得normal。所以這個nearly normal distribution的mean不是確切的population mean,這只是一個逼近。
所以既然我們只能從sampling distribution來推估population mean,那這個真正的population mean應該就是落入這個sampling distribution的mean的正負區間內。
normal distribution告訴我們,各個sample mean可能落入的區間如下:
所以這就產生了我們常聽見的95% confidence interval:
因為有95%的sample means會落入正負2個sampling distribution SD (standard error)之內。這2*standard error有個專有名詞,稱為margin of error(ME)of 95% CI。
範例
這邊轉成統計的數字的話:
首先提到了standard error = 4%,這代表這是一個sampling distribution,所以是nearly normal
所以64.5%就代表了mean
margin of error = 2*se = 8%,這邊z*是2因為是95% CI。
所以95% CI = 64.5% +- 8%,我們有95%的信心這是population mean可能的範圍。
CI的使用限制
1. 既然是CLT演變出來的,則必須每個sample要是independent,建議 n < 10% population,如果sample without replacement。2. n至少>= 30,越skew越需要大的n值才能讓distribution nearly normal。注意這個條件比CLT需要成立的條件還嚴苛得多,理由後述。
95% CI 的確切的z*(距離mean的standard error倍數)值為1.96
95% CI的真正意義就是normal distribution的中心點往左右擴張margin or error的幅度的range,這個range要能包含剛好95%data。我們之前說95% CI的margin of error = 2SD,不過實際上應該是1.96*SD,見下圖:
中間著色機率(或說data佔比)= 0.95
所以兩個tail應該各佔 (1-0.95)/2 = 0.025的機率
我們可以找出cutoff value for 0.025機率: qnorm(0.025) = -1.96
這是P(X <= -1.96) = 0.025
由於對稱的關係,另一端cutoff value是 1.96
所以z* = 1.96
我們說 we are 95% confident that population mean falls within sample mean +- 1.96 SD。
沒有留言:
張貼留言