code

顯示具有 Probability 標籤的文章。 顯示所有文章
顯示具有 Probability 標籤的文章。 顯示所有文章

2017年2月3日 星期五

Probability筆記68 - Total Probability Theorem

這算是補充conditional probability。

假如sample space被某些disjoint events Ai瓜分(partitioned),則某個event B的機率:




這稱為total probability theorem,之前有散落在bayes theorem的變形筆記中。

另一個觀點可以把P(B)看成是P(Ai)對P(B|Ai)的權重,因為SUM(P(Ai)) = 1,所以P(B)相當於各種Ai可能發生的機率影響下的組合,這有點期望值的想法:




以上理論可以generalize到countable infinite partition set。


範例


這個例子把sample space用無限個countable (discrete) event(選中某個coin)瓜分了,投擲出head發生的機率 = (1/2)^i * (1/3)^i = (1/6)^i。

所以P(Head)根據total probability theorem =  1/6 / 5/6 = 1/5




2017年1月6日 星期五

Probability筆記67 - Expected value of Expected values 範例

學貸人生?!

如果隨機選一群學生的話,平均會選到20名學生(好奇怪的事件描述)。每個學生平均欠的學費為5000元,請問隨機選一群學生的話,總共欠費的期望值是多少?

令Y 為選到學生的數目,令X為學生欠費的值,X和Y為independent,則我們是要求 E(X1 + X2 + ... + XY)

不過這樣無法按照定義寫出任何可以計算的方式,加總的項目數量是變數,但是可以改寫成以下:

E( E(X1 + X2 + ... Xy | Y = y) )

為什麼可以寫成上式?
inner expectation是特定y的前提之下,X sum的expected value,即所求。
outer expectation是所有Y的X sum的expected value。

所以
E(X1 + X2 + ... Xy | Y = y)
= E(X1 | Y = y) + ... + E(Xy | Y = y)
= E(X1) + ... E(Xy)    /* X,Y are independent */
= E( 5000 * y )
= 5000 * y

所以
E( E(X1 + X2 + ... Xy | Y = y) )
= E( 5000 * y )
= 5000 * E(Y) /* all ys */
= 5000 * 20
= E(X) * E(Y)

General Rule for independent X, Y









2017年1月4日 星期三

Probability筆記66 - Conditional Expectation

複習一下E(X|Y=y)

怎麼求?

如果X是discrete,則把所有在Y=y前提下發生的outcome的x與其發生的條件機率P(X=x|Y=y)的乘積和:



如果X是continuous:


當然所有的conditional probability要sum or integrate to 1。

Discrete 範例:擲兩顆骰子

令Y為minimum,X為maximum,求E(X|Y=3)?

題意就是:兩顆骰子擲出(x,3)的outcomes中,x要>=3的機率?

我們把y=3的事件看成新的sample space,則個別(x,3)的機率為:


所以很簡單的按照定義:





Continuous 範例:Exponential

如果X,Y有joint density:

求fx|y(X|Y) = ?

按照joint density定義,我們可以求出conditional density:




再來按照expected value定義,對所有的x積分,注意積分區間為[0,y],積分不困難,因為y為常數:




如果反過來求E(Y|X=x)?

按照定義,我們先求分母X的density:




分子和分母都有了,所以conditional density:



既然有了conditional density,再來就是按照E(Y|X)的定義去積分:






2016年12月30日 星期五

Probability筆記65 - Correlation of 2 RVs

定義


分母是normalization效果,使得correlation 被限制在 -1 ~ 1之間。


語意

correlation用來比較X和Y增加或減少的趨勢是否同步或是反向。

如果correlatoin 靠近1,則代表X和Y增加或減少的趨勢一致(正相關)。
如果correlation 靠近-1,則代表X和Y增加或減少的趨勢相反(負相關)。
如果correlation 靠近0,則X和Y的增加或減少的趨勢與彼此無關,注意跟independence是不相干的概念

不過可惜上面的語意老師沒有證明,當作事實認知吧,有空再去找找證明看。











Probability筆記64 - Covariance的線性性質

不論有沒有independent



所以如果a,b都是1:



如果只有X和Y兩項:



後兩式都是由第一式衍生出來的。









Probability筆記63 - 關於Variance of Sum / Covariance的dependent continuous RV範例

Damn dependence!

標題很兇,因為沒有independence的話,算expectation/variance都要按照定義去乖乖積分,會算死真的,例如本篇這題。

範例

令X,Y有joint density:


求Var(X+Y)?

因為沒有independence,一切都要按照定義來算,發瘋。

Var(X+Y) = Var(X) + Var(Y) + 2*Cov(X,Y)

而Var(X) 用快速算法 = E(X^2) - E(X)^2
E(X^2)按照定義:(或是先求fx(X),再對fx(X)積分,式子是一樣的)


E(X)^2按照定義:


所以Var(X) =


Var(Y)也如法泡製:



再來算Cov(X,Y):




最後終於可以湊成Var(X+Y):



這一題雖然是計算地獄,但是讓我重新複習了expectation的定義,釐清一些想法算是不錯,否則一直套用特定model的公式,久了會忘記原本的expectation定義要如何計算。




Probability筆記62 - 關於Variance of Sum / Covariance的Bernoulli RV範例

Example1: 10人拿帽子之Var(X+Y)

10個帽子分屬於10個人,令Bernoulli X = alice拿對的值,Bernoulli Y = bob拿對的值,求Var(X+Y)?

先注意到X和Y一定是dependent,所以首先可以寫出Var(X+Y)的公式:



由於X和Y是Bernoulli,variance = pq,這好算,對任一人來說,拿對機率p = 1/10,拿錯機率q = 9/10。

Cov(X,Y)就比較難算了,按照covariance的快速算法:


E(X)和E(Y)好算,因為Bernoulli的expectation = p = 1/10
但是E(XY)就要按照定義算了,因為不是independent RV,無法拆出來。

按照定義
E(XY) = SUM_all_xys_( P(XY = x*y) * (x*y) )

但是x*y不為0的時候只有x = 1且 y = 1,所以上式 :
E(XY) = P(X=1, Y=1) * (1*1)  = P(X =1 AND Y=1)
=  P(X=1|Y=1) * P(Y=1)   /* 採用conditional probability定義 */

= (1/9) * (1/10)

所以Cov(X,Y) =

而整體Var(X+Y) =




Example2: 10人拿帽子之Var(X1 + ... + X10)

這個很簡單,BJ4:





Probability筆記61 - Independent and Covariance

Independent implies covariance = 0

我們之前知道Var(X1+ .. + Xn) = Var(X1) + ... Var(Xn),當Xi彼此獨立的時候。

其實這個公式是從以下導出來:

(1) 我們知道(not necessarily independent RVs) Variance of sum of RVs等式如下:


(2) 當這些Xi都是彼此獨立(其實只要pairwise independent)的時候,Cov(X1,X2)  = 0,按照Covariance定義證明如下:





(3) 所以(1)中的2nd term為零,得證。








Probability筆記60 - Variance of the sum of RVs, and Covariance

Variance vs Covariance

Variance定義:


Covariance定義:

如果X=Y的話,可以看出來Var(X) = Cov(X,X)



Variance快速算法:



Covariance快速算法:



上面從第二行展開到第三行的部分:
E(XY) 就是E(XY)
E(X*E(Y)) = E(Y) * E(X),因為E(Y)這邊是一個常數
同理E(Y*E(X)) = E(X) * E(Y),因為E(X)這邊是一個常數
最後 E(E(X)*E(Y)) = E(X)*E(Y),因為本來就是常數(沒有X變數,經過E() operator之後都是常數)

這個結論倒是不用背,因為如果把Y=X,就可以直接用Var(X)得到Cov(X,Y)的式子。


Covariance / Variance of sum of RVs

covariance其實是計算一堆(不一定是independent)random variables的和的variance中間的某個產物,稱為covariance:


還是有必要一行行看清楚上式:
第一行是variance的定義無誤,

第二行E( (SUM_i=1_to_n(Xi))^2)
= E( (X1 + X2 + ... + Xn)^2 ) = E( X1^2 + X2^2 + ... + Xn^2 + X1X2 + X1X3 + .... )
= E( X1*(X1 + X2 + .. + Xn) + X2*(X1 + X2 + ... + Xn) + ... + Xn*(X1 + X2 + ... + Xn) )
= E( SUM_i=1_to_n(Xi * SUM_j=1_to_n(Xj) ) /*把 j項目當作常數分離出來 */
= E( SUM_i=1_to_n(Xi) * SUM_j=1_to_n(Xj) )

這邊弄懂上面就懂了


所以簡單來說:



舉例來說:



注意:
(1) 右邊左上到右下的對角線的terms,其實就是Var(X1) + Var(X2) + Var(X3)
(2) Cov(Xi,Xj) = Cov(Xj, Xi),這個根據定義不證自明

所以右邊“矩陣”我們可以從以上兩點性質歸納出(以下兩種可能的重寫):


結論

對不一定independent的一堆RVs,其Var(X1+ X2 + ... + Xn)可以寫成以下三種形式:





2016年12月29日 星期四

Probability筆記59 - Central Limit Theorem (大量隨機變數求和的機率)

Simple Idea

(1) infinite independent RVs,有共同的mean和variance
(2) 取其中n個RV的和進行linear transformation來變成一個standard normal RV
(3) 則P(transformed value < 某a) = P(Z <= a),當n -> INF

(不過跟大數法則好像很不一樣,因為這邊講的不是RVs的平均?)

寫成數學式:
左式為average經過Z transformation取極限值,右式則為P(Z<=a)的定義去積分Z的density function。


用途

大數量的RV的和的事件機率相當難計算(至少用手算不出來),所以CLT是一個逼近的方法,用Z來逼近。

當然n越大,逼近效果越好,但是沒有一個cutoff value說n至少要大於多少才能得到好的近似值。



範例1:CLT用在大數量的uniform RVs

有1000個independent uniform RVs X1, X2, ...X1000,都有E(Xi) = 5/2, Var(Xi) = 25/12,求此1000個隨機變數的和:X <= 2550的機率?

這個如果沒有CLT做不出來,因為我們不知道X的probability distribution,目前學過的,除非隨機變數加起來落於某種model,要不然不知道distribution。

所以按照CLT,我們將X轉換成Z:



範例2:CLT用在大r值的Gamma RVs

某Y為Gamma(r = 1000, lambda = 8),求P(620 < Y < 630)?

根據定義,Y事實上可以看成1000個independent exponential(lambda = 8) RV Yi的和,其E(Yi) = 1/8,Var(Yi) = 1/8^2 = 1/64

我們對Y的linear transformation會是 Y - 1000*E(Yi)/sqrt(1000*Var(Yi)):

根據CLT:



這邊都是根據Z的CDF table去計算,所以會有一些不等式重構的過程。




範例3:CLT用在大n值的Binomial RVs

令Y為一個binomial(n = 5000, p = 1/10) RV,求P(Y <= 520) ?

如果按照Binomial的probability定義,我們幾乎是無法手動計算的:



首先確認能否用Z來approximate binomial distribution?
答案是可以,因為此binomial可以看成是5000個 Bernoulli RV的和。

這邊有點蹊蹺了,因來為CLT是用Z來approximate 某個RV model,但是Z本身是continuous RV,我們現在要用Z來approximate discrete RV (i.e. Binomial)?

這就要用到一個校正方式:Continuity Correction

根據維基百科:
In probability theory, a continuity correction is an adjustment that is made when a discrete distribution is approximated by a continuous distribution.

因為Y的定義域為integer,所以如果把P(Y <= 520) = P(Y <= 520.1) = P(Y <= 520.9) ....
但是Z是continuous RV,所以用520還是用520.1還是用520.9來逼近得到的答案都不一樣,這個校正採取了折衷的方式,取 520 + 0.5 = 520.5來當approximation的基準。

所以P(Y <= 520) = P(Y <= 520.5) =


範例4:CLT用在大數目的Bernoulli RVs

有2500個Bernoulli RV Xi, E(Xi) = 1/3, Var(Xi) = 1/3*2/3,試求P( 830 <= SUM(Xi) <= 840 )

按照定義計算的話,我們手動無法達成:


改用CLT:
Bernoulli RVs是 discrete RV,我們現在要用Z來approximate它的機率分佈的話,那必須用到continuity correction:



所以:




範例5:CLT用在大lambda的Poisson RVs

Poission RV (lambda = a)可以看成a個 Possion RVs (lambda = 1, variance = 1^2 = 1)的和,所以我們可以用CLT來逼近Poisson RV的機率。