如何判斷一個distribution是nearly normal?
那就要看下右圖是一個normal probability plot:Y軸是data的值
X軸是theoretical quantiles,就是某個你認為此data應該符合的distribution model的quantiles(quantiles是P(X<=x)中的x,就是某個cutoff values)。所以其實X軸就是某個data point的z-score。
所以normal probability plot其實就是把data的quantiles和normal distribution的quantiles作比較。如果data point都聚集在圖中的直線上(1 to 1 relationship),則可以推論此dataset是nearly normal。
判讀
下圖是一個不符合nearly normal distribution的plot:如果只看右圖normal probability plot的話,可以判斷原來的dataset不能用normal distribution來model,為什麼?
首先Z score(x軸)的意義就是normalized SD from the mean,所以一個normal distribution的話,在越稀有的事件(較大的quantile或說z score)應該對應的data也要越極端(也就是上圖中身高要越高)。這就是為什麼要是一條直線的原因。上圖的85 inches的身高的data集中在z score 1~2.5之間,不符合normal distribution。
此外也可以判讀tail / skewness:
沒有留言:
張貼留言