Sonny不讀不行: Statistics筆記12

2017年1月15日星期日

可以看到一個nearly normal distribution，99.7%的data落在3個SD from the mean之內。

假設有兩個data distribution，其中各有一個點，我們想知道這個點在其分佈中，是離平均值較近還是較遠？

由於兩個distribution的參數不一樣，我們不能比較絕對數值，但是我們可以分別算出這兩個點在其distribution內的位置是多少個SD，這樣可以知道此點在其分佈內的相對位置，或說在某些application中是指優劣程度。

例如有兩個考試結果都呈現normal distribution:

Pam拿了1800分在SAT，Jim拿了24分在ACT，要怎麼比較兩人優劣？

按照上面的邏輯，全部換成SD:

Pam在其分佈內的表現位於1個標準差，而Jim在其分佈內的表現位於0.6個標準差（較為接近平均分數），所以Pam表現較為突出。

以上的算法稱為standardized Z score，定義如下：(其實這就是Purdue Probability中講的：normal random variable可以線性轉換到standard normal random variable Z）

算出sample point在不同分佈中的standardized z score，我們就能與其他的distribution sample point做比較。

通常|Z| > 2就是一個較為稀有的事件。

注意Z score按定義可以用任何distribution算出（畢竟每個distribution一定能找出mean ,SD)，不侷限在normal distribution。

其實這就是P(X <= x)，針對某個x來說。所以percentile是一個probability。我們可以用R直接算出percentile，不用算出Z score:

或是可以用standard normal probability table，不過這樣就一定要算出Z score才能查表了：

這個相當於知道P(X<=x)是多少，而我們要找出x的值。之前Purdue Probability的練習也有了。

如果要用standard normal table:

(1) 在表中找出此percentile (probability)的位置

(2) 看row, col組成多少的Z score

(3) 此Z score是standard normal transform過的，將之轉換為原本distribution中的outcome

用R的話簡單多了，因為它幫你做掉inverse transform，注意第一個參數要填入percentile，也就是P(X<=cutoff value)。

Sonny不讀不行