code

2017年1月23日 星期一

Statistics筆記20 - Confidence Level

confidence level

冒出一個新名詞了?!

簡單來說,就是confidence interval就是我們說的95%那個百分比,也就是我們對sampling distribution中的samples包含population parameter的機率(或說信心)。

confidence level是我們指定而非算出來的,通常為90%, 95%, 98%, 99%。


提高confidence level (提高accuracy)

confidence level提高表示有更大機率我們的confidence interval會包含population parameter,也意味著相對應的confidence interval將佔比更高的data points。

一個可以提高confidence level的方法就是加大confidence interval,也就是加大margin of error ME。

如果confidence level提高了,我們稱accuracy也提高了,因為我們的confidence interval中的data有更高機率包含了population parameter。

代價是什麼?


隨著confidence interval(或說ME)加寬,精確度precision降低了

簡單想,如果confidence interval很寬,那等於什麼都沒說?! not informative!
例如氣象預報說,明天氣溫可能介於40度c到5度c之間,信心水準為99%,那不等於白說?
雖然這個range可能準確(accurately)包含明天的溫度,但是精確度(precision)降低了,能做決定的資訊品質降低了。


提高sample size 有助於提高confidence level,而不會降低precision

為什麼?

先來看這個式子:



因為根據CLT,n越大,則standard error越小,distribution越趨近於normal,而standard error (上面公式中的 s/sqrt(n) )越小,則margin of error (與SE成正比)就越小。如果不改變z*(就是不改變data 佔比,例如z* = 2,則永遠是95% data在CI中),則我們可以縮小ME,也就是CI兩端的值可以往mean靠近而不改變Confidence Level。


秒懂?


澄清Confidence Level和Interval的範例


題目簡單說來就是某次random sampling n = 1154,發表了一個95% confidence interval,兩端cutoff value為3.53和3.83。

特別要把這題寫出來,因為對澄清觀念很有幫助,以下幾個選項true or false的原因如下:




這是錯的,因為95% confidence interval是指95%的sample mean都落入3.53 ~ 3.83之間,而不是上面所說的意思。



這是對的,這1154人其實就是1154次random sampling,就有1154個sample mean(每一個人平均的休息時間),所以組成了一個sampling distribution,此sampling distribution 如果宣稱有95% confidence interval,則意指95%的sample組成的confidence interval包含了population parameter。



這是錯的,這題目變成說population mean會隨機跳動,這當然不對。



這是仍然是錯的,因為95% confidence interval定義不是這樣。









沒有留言:

張貼留言