定義Robust
就是極端值不影響整體dataset能帶來的推論。例如常見的例子就是“聯發科平均每名員工分紅400萬”,這一聽就是屁話。
平均值就是沒有剔除極端值的影響,得出的統計指標沒什麼意義。
所以median會比mean是一個robust統計指標,這也就不奇怪為什麼政府統計通常只談平均值,而不敢談眾數或是中位數的原因:
Robust Statistics based on Median
Standard deviation的定義跟mean有關,自然不是robust。而IQR定義跟median有關,自然較為robust:non-robust通常是出現在理想的model,例如normal distribution,此時用SD就是合理。不過現實生活中通常會有極端值的出現,用median/IQR會比較能得到族群的代表性描述。
Data Transformation
定義將sample outcomes apply某個transformation function,用意是希望能用某些已知的數學模型去model(這樣好嗎??!!,塔雷伯的黑天鵝看一下)
例如以下right-skewed dataset,經過natural log transformation變成近乎對稱的圖形:
下圖則是把一個dataset經過natural log transform之後,看起較有線性的fu,所以可以找出線性model來解釋:
或是其他transformation function: (原圖應該放錯了)
謝謝分享, 很有用!!!
回覆刪除真的感謝!!