code

2017年1月12日 星期四

Statistics筆記6 - measuring spread

Variance

從sample算出來的sample variance公式如下:


如果是真正的population variance則用符號SIGMA。


按照variance在probability theory的定義:Var(X) = E( (X - E(X))^2 )

Var(X)實際上就是另一個h(X)的expected value,而h(X) = (X - E(X))^2
首先為什麼要squared?

因為如果單純看X距離E(X)的話,在機率分佈為對稱的dataset就會產生抵銷效應,例如normal distribution:


如果採用平方的話,所有的deviation都一定是正數(不過其實也可以用絕對值不是?)
不用絕對值是因為我們還想給較大的deviation較高的權重,權重不是線性的,而是exponential的:




上面截圖的式子,按照Var(X)的定義看起來暗示每個sample (或說outcome)的發生機率為1/(n-1),為什麼呢? 下回分解。


舉例,假設我們有以下的data matrix的統計資訊,如果life expectation是random variable X,則我們想求Var(X)?



按照統計學的定義(不是probability theory的定義,此外我們也不可能知道Xi的發生機率):


注意在統計學中,variance是有單位的,把deviation squared,所以單位就是deviation的單位squared。


Standard deviation

正是由於Var(X)的單位跟觀察到的變數單位不一致,而且也難以理解,所以統計學通常會看standard deviation,定義就是把variance開根號,使得單位與資料單位一致。

Inter-quartile range(IQR)

一個quartile是dataset中某一個變數的threshold,小於此threshold的data數量為整體data佔比25%的倍數。所以總共只有四個quartile:

1st Quartile (Q1,25th percentile): 小於此threshold的data 為全部的25%。
2nd Quartile (Q2,50th percentile): 小於此threshold的data 為全部的50%。
3rd Quartile (Q3,75th percentile): 小於此threshold的data 為全部的75%。
4th Quartile (Q4): 小於此threshold的data 為全部的100%。

IQR定義為:Q3 - Q1,這在boxplot是明確表示出來的:



IQR的語意為中間50%的sample落入的範圍為Q1~Q3,兩個端點差異就是IQR,避免直接看sample max / min 被outliers影響的問題(因為outliers不能天真的就屏除掉不看)。


沒有留言:

張貼留言