code

2017年1月15日 星期日

Statistics筆記11 - Bayesian inference

終於進入重頭戲?!

猜哪隻手中有12-sided die



Bayesian Inference的主要特性就是對某一事件的機率估計,會隨著搜集更多的data而修正,這個貼近人類對事件機率的評估,畢竟我們日常生活很少有完全獨立隨機的事件。

不過通常搜集更多的data意味著更大的cost,所以才有Bayesian Inference的出現,讓我們在某個程度就下決定。


Prior Beliefs

在還沒有搜集任何資訊前,我們對一事件發生機率的評估就稱為“prior beliefs”。

例如這個遊戲,我們的prior belief建立在機會均等的常識上,所以12-sided die在左右手的機率各為50%。



Collect Data#1

假設我們花錢請右手擲個點數,發現點數 >= 4(真實點數當然不會跟我們講,否則擲出7以上,馬上就有答案了)。

由於對12面骰子來說P(X>=4) = 9/12 = 0.75
對6面骰子來說P(X>=4) = 3/6 = 6/12 = 0.5

所以右手擲出 >= 4的點數,那右手可能是12面骰子的機率,常理推斷應該比50%機率大了。

問題是要怎麼update prior belief according to data collected?

這其實是一個conditional probability: P(A = 右手握有12-sided die | B = 右手擲出 >= 4)
用貝氏定理解:
P(A and B)  = 0.5 * 0.75 = 0.375
P(B) = P(右手是12面骰子且擲出>=4) + P(右手是6面骰子且擲出>=4) = 0.5*0.75 + 0.5*0.5 = 0.625

所以P(A = 右手握有12-sided die | B = 右手擲出 >= 4) = 0.375 / 0.625 = 0.6 = 60%

已經比原來的prior belief 高出10%了!


Posterior Probability

上面算出的 60% 稱為 posterior probability,這就是P( hypothesis | observation )。而這個posterior 又會變成下一輪data collection後的prior,所以這是一個iterative process

可以看出來即便一開始prior猜測離事實很遠,但隨著data collection iteration次數增多,會漸漸修正。


注意其跟p-value的定義剛好相反:
p-value = P( observation | Hypothesis )

p-value的語意是在hypothesis成立的前提下,我們觀察到此data或是更極端data的機率。原文如下:




範例

首先我們從以前的研究得出幾個相關事實的priors:


寫成機率:
P(event A = women with breast cancer) = 0.017
P(event B = mammography = TRUE | A) = 0.78
P(mammography = TRUE | ~A) = 0.1

所以一個醫生在沒有任何儀器診斷之前,可以預設(prior belief) 1.7%的機率來看診的女病人有乳癌。

(1) ok, 病人做了mammography檢驗,如果檢驗結果為positive,則我們關心的是:P( A | B )
= P(A & B) / P(B)
= P(B|A)*P(A) / P(B)
= 0.78 * 0.017 / ( (0.017 * 0.78) + (1-0.017)*0.1)
= 0.1189

所以我們得到了一個posterior,根據mammography test的結果為positive,我們猜測女病人有乳癌的機率上升到了12%,是原本的10倍左右,但老實講機率還是很低。

這邊有點恐怖,如果一個不懂機率的醫生或是病人,盲目信任檢驗結果,那真的會先自己嚇死自己,儘管比平均女人乳癌機率高了十倍,但仍然相當低。

以下是probability tree 計算方法:






(2) 如果做了第二次mammography test,仍然獲得positive,那我們又要update我們的prior了,注意這次計算的P(A)是根據上一次的P(A|B) = 0.12

這次的P(A|B)
= P(A & B) / P(B)
= P(B|A)*P(A) / P(B)
= 0.78 * 0.12 / ( (0.12 * 0.78) + (1-0.12)*0.1)
= 0.5154

我們新的posterior 提高到了50%以上! 所以兩次positive result已經大幅提高我們相信女性病患罹病的機率了。


結論:一定要多做幾次試驗,否則誤診機率很大!!!!!!!!!!!


沒有留言:

張貼留言