code

2017年1月20日 星期五

Statistics筆記18 - CLT範例

範例1



令random variable X = 一首歌的時間
這邊我們已經有了probability distribution(或說PMF of X),不過必須要看histogram來估算。

我們要求的是P(X >= 5),既然有了PMF (histogram),可以把所有X>=5的event的機率累加起來。這邊不能用到CLT,因為這個probability distribution不是nearly normal,還差得遠:



範例2 (承上題)


令X1,X2, ... X100為independent random variables,表示某首歌的長度分鐘,求P(X1+X2+...+X100 >= 360)?

這有點沒頭沒腦的,因為我們完全不知道每首歌取長度的和的probability distribution,不過這正是CLT能解決的問題,因為這是sum of RVs with same mean and variance(每首歌被選中的機率為uniformly distributed 1/3000)。

按照機率課的方法:
所以根據Purdue Probability課程的CLT範例,此X = X1+X2...+X100可以做Z transformation:

P(X >= 360)
= P( (X - n*E(X))/sart(n*sigmaX^2) >= (360 -n*E(X))/sart(n*sigmaX^2) )
= P( Z >= (360 - 100*3.45)/sqrt(100 * 1.63^2))
= P( Z >= 0.9202454)
= 1 - P(Z <= 0.9202454)
= 0.1787223


按照統計課的CLT方法:

選一百首歌,相當於做一百次random sampling ,也可以用random variable X1,X2, ... X100表示,我們仍然是求P(X1+X2+...+X100 >= 360),也可以寫成:

P(  (X1+X2+..+X100/100) >= 3.6 )
P( sample mean >= 3.6 )

sample mean是一個sample statistics,根據CLT,任何sample statistics組成的distribution都是nearly normal,算出來的答案是一樣:


 其實兩者都是一樣的數學,只是釐清的邏輯角度稍微不一樣,either way is fine!


沒有留言:

張貼留言