code

2017年1月19日 星期四

Statistics筆記16 - Sampling Distribution

Sample Distribution & Sampling Distribution

sample distribution就是我們從population中randomly sampling取出的data形成的distribution,例如一群小孩的身高呈現某種normal distribution。

這個sample distribution當然能找出各種分布指標,例如mean, SD, variance等,稱為sample statistics。

而sampling distribution則是指多個sample distribution的sample statistics組成的distribution,例如100次的random sampling的data形成100個不同的mean,而這100個不同的mean會形成一個sampling distribution。


不過為什麼要探討sampling distribution?



Population statistics vs Sample Statistics

顧名思義population statistics是拿族群中“所有”的個體資料去統計出來的,而sample statistics則是某次random sampling選出的個體資料統計出來的。

population mean and SD:




假設我們從美國所有女人中,依照各州別random sampling不同的女人並且記錄身高,所以會形成52個身高的sample distribution。而對mean來說,52個sample distribution的means會形成一個sampling distribution:



sample means

上例中,sampling distribution的mean (the "sample means")約等於真正族群的 population mean,因為每個州是整個population的縮小版,所以每個州的mean組成的sampling distribution的mean應該要趨近於population mean。



standard error

sampling distribution的SD 估計應該要遠比真正族群的SD小,因為sampling distribution的每個data是random sampled的每個州的平均身高,所以應該都趨近彼此(不會設想哪個州的平均身高遠高或遠低於其他州),所data會傾向集中在sampling distribution的mean。然而population SD是所有美國女人以population mean的為中心的variability,所以當然會比較大多了。


我們稱這個sampling distribution的SD為standard error,當每個州的sample size n越大的時候,每個州內的variation就越被抹去,也就是每個州的mean越趨近一至,所以由每個州的mean組成的sampling distribution的SD (standard error) 就會越小。

懂?


沒有留言:

張貼留言