code

2017年1月13日 星期五

Statistics筆記7 - Robust Statistics & Data Transformation

定義Robust

就是極端值不影響整體dataset能帶來的推論。
例如常見的例子就是“聯發科平均每名員工分紅400萬”,這一聽就是屁話。
平均值就是沒有剔除極端值的影響,得出的統計指標沒什麼意義。

所以median會比mean是一個robust統計指標,這也就不奇怪為什麼政府統計通常只談平均值,而不敢談眾數或是中位數的原因




Robust Statistics based on Median

Standard deviation的定義跟mean有關,自然不是robust。而IQR定義跟median有關,自然較為robust:



non-robust通常是出現在理想的model,例如normal distribution,此時用SD就是合理。不過現實生活中通常會有極端值的出現,用median/IQR會比較能得到族群的代表性描述。

Data Transformation

定義
將sample outcomes apply某個transformation function,用意是希望能用某些已知的數學模型去model(這樣好嗎??!!,塔雷伯的黑天鵝看一下)

例如以下right-skewed dataset,經過natural log transformation變成近乎對稱的圖形:



下圖則是把一個dataset經過natural log transform之後,看起較有線性的fu,所以可以找出線性model來解釋:




或是其他transformation function: (原圖應該放錯了)


1 則留言: