code

2017年1月11日 星期三

Statistics筆記5 - 找出data distribution的中心

Sample Statistics & Population Statistics

首先我們要釐清的是,我們對族群的真實面貌的描繪通常是靠sampling而來的,所以所謂的data distribution的性質都只是一個個別sample的性質(稱為point estimat),還要看當初採樣(有無random sampling, 排除bias等等)是否能generalize到整個族群。

所以某個特定sampling的性質要明確地說是sample statistics,通常用拉丁文字表示sample statistics,用希臘文字表示population statistics(除非做普查,否則都是從sample statistics去generalize出來的)。


Centers

一個data distribution有以下幾種有意義的中心點:



1. mean就是算數平均數,不用多說了。
2. mode就是眾數,出現最多次的數值,通常沒什麼用。
3. median就是中位數,在一個ascending sorted list中,中間的數值就是中位數,如果遇到list size是偶數的話,則把中間兩個數值做算術平均:





範例

舉例來說,以下的distribution是left-skewed,median通常非常接近peak,mean則小於median,因為left-skewed的關係,算數平均數的構成成員大多數在左邊,把mean往左拉了。




反過來對一個right-skewed distribution來說,mean被往右拉了,所以median會小於mean:



對normal distribution來說,median ~= mean。

沒有留言:

張貼留言