Probability Interpretation
frequentist interpretation: P(A)看成無窮次數的隨機過程(random process)中,某event A發生次數佔比。這符合一般人的觀點,因為模擬試驗逼近某事件機率通常都是這樣的approach。bayesian interpretation: 這比較有趣,也是本課程的主題(以及machine learning的一派)。加入了個人對某事件的發生機率的了解(prior belief),將影響此事件發生的機率,詳情我目前也不清楚,需要拿之後的Bayesian Statitstics才知道在搞什麼鬼?!
Law of Large Numbers
Purdue機率課的筆記在此。白話文:如果有無限多個有相同mean的independent RVs,可以取其中n個的平均數來逼近每個RV的mean,當n趨近於無限大的時候,大於誤差epsilon的機率為0。
而統計學中的Law of LN:
不過前者在講mean,後者在講probability,這個差異性蠻大的,為什麽取一樣的名字?!
有空再弄懂。
統計學中的Law of LN是支持frequentist interpretation的定理,要不然frequentist interpretation看起來不能成立。下圖是一模擬實驗,值一個骰子,某一數字出現的佔比趨近於1/6,當實驗次數趨近大數時:
Marginal Probability
有個新名詞叫做marginal probability,因為計算是從contingency table的邊緣來計算:注意contingency table事實上是一個joint mass table,例如上圖中要算出P(subjective upper middle class & objective upper middle class) = 37/98
Bayes Theorem
這個之前都學過了,統計上的應用則是來探討變數之間的關係。如果P(A) = 50%,P(A|B) = 30%,則我們可以推論A和B是dependent(其實也就是用independent定義來檢視)。Probability Tree
這個可以說是contingency table的另一個表示方法,因為假設我們拿不到contingency table,我們可以把拿到的數據visualize成一個probability tree,例如我們有以下描述:根據以上數據,我們可以畫出probability tree:
我們要求的是P(spam | "free"出現),所以我們只要找出新的sample space就可以算。
由tree中可以得到"free"出現的次數 = 35 + 3 = 38
spam出現且free出現的次數 = 35
所以 P(spam | "free"出現) = 35/38 = 0.92
另一個有趣的例子如下:
先列出相關機率:
P(HIV) = 0.259
P(ELISA = TRUE | HIV) = 0.997
P(ELISA = FALSE | NO HIV) = 0.926
求 P(HIV | ELISA = TRUE) = ?
這如果不畫probability tree也可以用bayes theorem算出來,畢竟Bayes Theorem就是拿來算這種case的。
P(HIV & ELISA = TRUE)
= P( HIV | ELISA = TRUE) * P(ELISA = TRUE)
= P(ELISA = TRUE | HIV) * P(HIV)
上面後兩個等式,我們已經知道三個部分,先把已知帶入:
P( HIV | ELISA = TRUE) * P(ELISA = TRUE) = 0.997 * 0.259
而 P(ELISA = TRUE) 可以partition成
P(ELISA = TRUE & HIV) + P(ELISA = TRUE & NO HIV)
= 0.997 * 0.259 + P(ELISA = TRUE | NO HIV) * P(NO HIV)
= 0.997 * 0.259 + (1-0.926)*(1-0.259)
= 0.313057
所以 P( HIV | ELISA = TRUE) * 0.313057 = 0.997 * 0.259
P( HIV | ELISA = TRUE) = 0.824843399
如果要畫probability tree,也可以(有點慢):
沒有留言:
張貼留言