Central Limit Theorem
為什麼叫CLT? 因為這是統計學中許多理論的中心根據。定義如下:
白話文就是 sampling distribution(x_bar) is nearly normal (當n越大),其mean等於population mean,其SD = population SD/sqrt(n)。
Purdue機率學裡面教的CLT在此,的確也是在講n個independent RV(不過要有共同mean, variance)如何可以用standard normal Z來approximate當n趨近無限大時。
如果我們拿不到population SD (上面公式中的sigma),則可以用某一個sample distribution的SD來代替(當作一個best guess,此外通常只有一個sample,不過就奇怪,那怎麼組成sampling distribution)
CLT使用注意事項
(1) 如果random sampling是without replacement (就是選到了不放回去),那sample size n 要 < population size 的10%。通常random sampling一定是without replacement,因為一個data不需要重複被觀察或實驗。假設從1000人中選500人出來好了,由於要選出的人數佔總族群比例為50%,所以很容易選到dependent sample point(例如基因非常相近),減低了generalization的代表性。所以統計學會在大sample size中維持小比例選擇(例如改成1000人選10人),這能有效排除dependent sample point。
當然如果sampling with replacement(實務上不會),則當然每次抽出任何人的機率都一樣,不用管portion of population。
(2) skewed population distribution vs sample size n的選擇
假設一個極端right-skewed population distribution:
其以各次random sampling的mean組成的sampling distribution,當每次sampling的size n 很小時候(例如10),每個sample mean差距應該都蠻大的(因為population 是highly variable right skewed),所以會比較像原本的population distribution。
如果增加每次random sampling的n到100,則每個sample distribution的variability被鈍化了,所以會看起來比較normal distribution,而所組成的sampling distribution也看起來比較normal distribution,SD(或稱standard error)也變小了。
提高sample size n,sampling distribution更趨近於normal:
n愈大,越像normal distribution,我們計算上越簡單(這樣才能利用CLT來approximate),但是與原本population的skewness或是variability可能更不像。
沒有留言:
張貼留言