code

2017年1月20日 星期五

Statistics筆記17 - Central Limit Theorem

Central Limit Theorem

為什麼叫CLT? 因為這是統計學中許多理論的中心根據。

定義如下:



白話文就是 sampling distribution(x_bar) is nearly normal (當n越大),其mean等於population mean,其SD = population SD/sqrt(n)。


Purdue機率學裡面教的CLT在此,的確也是在講n個independent RV(不過要有共同mean, variance)如何可以用standard normal Z來approximate當n趨近無限大時。

如果我們拿不到population SD (上面公式中的sigma),則可以用某一個sample distribution的SD來代替(當作一個best guess,此外通常只有一個sample,不過就奇怪,那怎麼組成sampling distribution)


CLT使用注意事項

(1) 如果random sampling是without replacement (就是選到了不放回去),那sample size n 要 < population size 的10%。

通常random sampling一定是without replacement,因為一個data不需要重複被觀察或實驗。假設從1000人中選500人出來好了,由於要選出的人數佔總族群比例為50%,所以很容易選到dependent sample point(例如基因非常相近),減低了generalization的代表性。所以統計學會在大sample size中維持小比例選擇(例如改成1000人選10人),這能有效排除dependent sample point。

當然如果sampling with replacement(實務上不會),則當然每次抽出任何人的機率都一樣,不用管portion of population。



(2) skewed population distribution vs sample size n的選擇

假設一個極端right-skewed population distribution:


其以各次random sampling的mean組成的sampling distribution,當每次sampling的size n 很小時候(例如10),每個sample mean差距應該都蠻大的(因為population 是highly variable right skewed),所以會比較像原本的population distribution。



如果增加每次random sampling的n到100,則每個sample distribution的variability被鈍化了,所以會看起來比較normal distribution,而所組成的sampling distribution也看起來比較normal distribution,SD(或稱standard error)也變小了。



提高sample size n,sampling distribution更趨近於normal:



n愈大,越像normal distribution,我們計算上越簡單(這樣才能利用CLT來approximate),但是與原本population的skewness或是variability可能更不像。



沒有留言:

張貼留言