Sonny不讀不行: Statistics筆記19 - Confidence Interval for mean

2017年1月23日星期一

Statistics筆記19 - Confidence Interval for mean

定義

某個population parameter的一個“可信的plausible的數值範圍”，稱為confidence interval，簡稱CI。

使用CI的原因是，我們如果只用sample statistics （point estimate)想要infer population statistics的話，這精準度相當困難，但是用一個可能區間的話，那就比較容易包含真正的population parameters，雖然仍然不知道真正的parameter會是什麼。

95% CI

CLT告訴我們：sampling distribution (如果是sample mean組成的話）約是一個nearly normal，而且中心點是population mean的normal distribution:

所以要釐清的是，我們的sampling distribution不是真正的population distribution，真正的population distribution可能是非常skewed，但是sampling distribution會隨著n變大變得normal。所以這個nearly normal distribution的mean不是確切的population mean，這只是一個逼近。

所以既然我們只能從sampling distribution來推估population mean，那這個真正的population mean應該就是落入這個sampling distribution的mean的正負區間內。

normal distribution告訴我們，各個sample mean可能落入的區間如下：

所以這就產生了我們常聽見的95% confidence interval:

因為有95%的sample means會落入正負2個sampling distribution SD （standard error)之內。這2*standard error有個專有名詞，稱為margin of error（ＭＥ）of 95% CI。

範例

這邊轉成統計的數字的話：

首先提到了standard error = 4%，這代表這是一個sampling distribution，所以是nearly normal

所以64.5%就代表了mean

margin of error = 2*se = 8%，這邊z*是2因為是95% CI。

所以95% CI = 64.5% +- 8%，我們有95%的信心這是population mean可能的範圍。

CI的使用限制

1. 既然是CLT演變出來的，則必須每個sample要是independent，建議 n < 10% population，如果sample without replacement。

2. n至少>= 30，越skew越需要大的n值才能讓distribution nearly normal。注意這個條件比CLT需要成立的條件還嚴苛得多，理由後述。

95% CI 的確切的z*（距離mean的standard error倍數）值為1.96

95% CI的真正意義就是normal distribution的中心點往左右擴張margin or error的幅度的range，這個range要能包含剛好95%data。

我們之前說95% CI的margin of error = 2SD，不過實際上應該是1.96*SD，見下圖：

中間著色機率（或說data佔比）= 0.95
所以兩個tail應該各佔（1-0.95)/2 = 0.025的機率

我們可以找出cutoff value for 0.025機率: qnorm(0.025) = -1.96
這是P(X <= -1.96) = 0.025
由於對稱的關係，另一端cutoff value是 1.96

所以z* = 1.96

我們說 we are 95% confident that population mean falls within sample mean +- 1.96 SD。

Sonny不讀不行

code

2017年1月23日星期一

Statistics筆記19 - Confidence Interval for mean

定義

95% CI

範例

CI的使用限制

95% CI 的確切的z*（距離mean的standard error倍數）值為1.96

沒有留言:

張貼留言

code

2017年1月23日 星期一

Statistics筆記19 - Confidence Interval for mean

定義

95% CI

範例

CI的使用限制

95% CI 的確切的z*（距離mean的standard error倍數）值為1.96

沒有留言:

張貼留言

2017年1月23日星期一