Sonny不讀不行: Statistics筆記16

2017年1月19日星期四

Statistics筆記16 - Sampling Distribution

Sample Distribution & Sampling Distribution

sample distribution就是我們從population中randomly sampling取出的data形成的distribution，例如一群小孩的身高呈現某種normal distribution。

這個sample distribution當然能找出各種分布指標，例如mean, SD, variance等，稱為sample statistics。

而sampling distribution則是指多個sample distribution的sample statistics組成的distribution，例如100次的random sampling的data形成100個不同的mean，而這100個不同的mean會形成一個sampling distribution。

不過為什麼要探討sampling distribution?

Population statistics vs Sample Statistics

顧名思義population statistics是拿族群中“所有”的個體資料去統計出來的，而sample statistics則是某次random sampling選出的個體資料統計出來的。

population mean and SD:

假設我們從美國所有女人中，依照各州別random sampling不同的女人並且記錄身高，所以會形成52個身高的sample distribution。而對mean來說，52個sample distribution的means會形成一個sampling distribution:

sample means

上例中，sampling distribution的mean （the "sample means")約等於真正族群的 population mean，因為每個州是整個population的縮小版，所以每個州的mean組成的sampling distribution的mean應該要趨近於population mean。

standard error

sampling distribution的SD 估計應該要遠比真正族群的SD小，因為sampling distribution的每個data是random sampled的每個州的平均身高，所以應該都趨近彼此（不會設想哪個州的平均身高遠高或遠低於其他州），所data會傾向集中在sampling distribution的mean。然而population SD是所有美國女人以population mean的為中心的variability，所以當然會比較大多了。

我們稱這個sampling distribution的SD為standard error，當每個州的sample size n越大的時候，每個州內的variation就越被抹去，也就是每個州的mean越趨近一至，所以由每個州的mean組成的sampling distribution的SD (standard error) 就會越小。

懂？

Sonny不讀不行

code

2017年1月19日星期四

Statistics筆記16 - Sampling Distribution

Sample Distribution & Sampling Distribution

Population statistics vs Sample Statistics

sample means

standard error

沒有留言:

張貼留言

code

2017年1月19日 星期四

Statistics筆記16 - Sampling Distribution

Sample Distribution & Sampling Distribution

Population statistics vs Sample Statistics

sample means

standard error

沒有留言:

張貼留言

2017年1月19日星期四