code

2017年1月14日 星期六

Statistics筆記10 - Probability

雖然之前拿了Purdue的Probability課程,但是怎麼應用是個問題,所以遇到統計課裡面的機率部分,還是不能安心跳過的,紀錄一下有哪些統計觀點的機率理論應用。


Probability Interpretation

frequentist interpretation: P(A)看成無窮次數的隨機過程(random process)中,某event A發生次數佔比。這符合一般人的觀點,因為模擬試驗逼近某事件機率通常都是這樣的approach。

bayesian interpretation: 這比較有趣,也是本課程的主題(以及machine learning的一派)。加入了個人對某事件的發生機率的了解(prior belief),將影響此事件發生的機率,詳情我目前也不清楚,需要拿之後的Bayesian Statitstics才知道在搞什麼鬼?!


Law of Large Numbers

Purdue機率課的筆記在此

白話文:如果有無限多個有相同mean的independent RVs,可以取其中n個的平均數來逼近每個RV的mean,當n趨近於無限大的時候,大於誤差epsilon的機率為0。

而統計學中的Law of LN:



不過前者在講mean,後者在講probability,這個差異性蠻大的,為什麽取一樣的名字?!
有空再弄懂。


統計學中的Law of LN是支持frequentist interpretation的定理,要不然frequentist interpretation看起來不能成立。下圖是一模擬實驗,值一個骰子,某一數字出現的佔比趨近於1/6,當實驗次數趨近大數時:




Marginal Probability

有個新名詞叫做marginal probability,因為計算是從contingency table的邊緣來計算:


注意contingency table事實上是一個joint mass table,例如上圖中要算出P(subjective upper middle class & objective upper middle class) = 37/98



Bayes Theorem

這個之前都學過了,統計上的應用則是來探討變數之間的關係。如果P(A) = 50%,P(A|B) = 30%,則我們可以推論A和B是dependent(其實也就是用independent定義來檢視)。



Probability Tree

這個可以說是contingency table的另一個表示方法,因為假設我們拿不到contingency table,我們可以把拿到的數據visualize成一個probability tree,例如我們有以下描述:


根據以上數據,我們可以畫出probability tree:



我們要求的是P(spam | "free"出現),所以我們只要找出新的sample space就可以算。

由tree中可以得到"free"出現的次數 = 35 + 3 = 38
spam出現且free出現的次數 = 35
所以 P(spam | "free"出現) = 35/38 = 0.92



另一個有趣的例子如下:



先列出相關機率:
P(HIV) = 0.259
P(ELISA = TRUE | HIV) = 0.997
P(ELISA = FALSE | NO HIV) = 0.926
P(HIV | ELISA = TRUE) = ?

這如果不畫probability tree也可以用bayes theorem算出來,畢竟Bayes Theorem就是拿來算這種case的。

P(HIV & ELISA = TRUE)
=  P( HIV | ELISA = TRUE) * P(ELISA = TRUE)
=  P(ELISA = TRUE | HIV) * P(HIV)

上面後兩個等式,我們已經知道三個部分,先把已知帶入:

P( HIV | ELISA = TRUE) *  P(ELISA = TRUE) = 0.997 * 0.259

而  P(ELISA = TRUE) 可以partition成
P(ELISA = TRUE & HIV) + P(ELISA = TRUE & NO HIV)
= 0.997 * 0.259 + P(ELISA = TRUE | NO HIV) * P(NO HIV)
= 0.997 * 0.259 + (1-0.926)*(1-0.259)
= 0.313057

所以 P( HIV | ELISA = TRUE) * 0.313057  = 0.997 * 0.259
P( HIV | ELISA = TRUE) = 0.824843399


如果要畫probability tree,也可以(有點慢):



沒有留言:

張貼留言