code

2017年1月15日 星期日

Statistics筆記12 - Normal Distribution

Bell curve



可以看到一個nearly normal distribution,99.7%的data落在3個SD from the mean之內。


SD的用處

假設有兩個data distribution,其中各有一個點,我們想知道這個點在其分佈中,是離平均值較近還是較遠?

由於兩個distribution的參數不一樣,我們不能比較絕對數值,但是我們可以分別算出這兩個點在其distribution內的位置是多少個SD,這樣可以知道此點在其分佈內的相對位置,或說在某些application中是指優劣程度。

例如有兩個考試結果都呈現normal distribution:



Pam拿了1800分在SAT,Jim拿了24分在ACT,要怎麼比較兩人優劣?
按照上面的邏輯,全部換成SD:



Pam在其分佈內的表現位於1個標準差,而Jim在其分佈內的表現位於0.6個標準差(較為接近平均分數),所以Pam表現較為突出。

Z score

以上的算法稱為standardized Z score,定義如下:(其實這就是Purdue Probability中講的:normal random variable可以線性轉換到standard normal random variable Z


算出sample point在不同分佈中的standardized z score,我們就能與其他的distribution sample point做比較。

通常|Z| > 2就是一個較為稀有的事件。

注意Z score按定義可以用任何distribution算出(畢竟每個distribution一定能找出mean ,SD),不侷限在normal distribution。



Percentile

其實這就是P(X <= x),針對某個x來說。所以percentile是一個probability。我們可以用R直接算出percentile,不用算出Z score:



或是可以用standard normal probability table,不過這樣就一定要算出Z score才能查表了:




從Percentile找出X=x (quantile, 或稱cutoff value)

這個相當於知道P(X<=x)是多少,而我們要找出x的值。之前Purdue Probability的練習也有了。

如果要用standard normal table:
(1) 在表中找出此percentile (probability)的位置
(2) 看row, col組成多少的Z score
(3) 此Z score是standard normal transform過的,將之轉換為原本distribution中的outcome

用R的話簡單多了,因為它幫你做掉inverse transform,注意第一個參數要填入percentile,也就是P(X<=cutoff value)。



沒有留言:

張貼留言