code

2016年12月30日 星期五

Probability筆記65 - Correlation of 2 RVs

定義


分母是normalization效果,使得correlation 被限制在 -1 ~ 1之間。


語意

correlation用來比較X和Y增加或減少的趨勢是否同步或是反向。

如果correlatoin 靠近1,則代表X和Y增加或減少的趨勢一致(正相關)。
如果correlation 靠近-1,則代表X和Y增加或減少的趨勢相反(負相關)。
如果correlation 靠近0,則X和Y的增加或減少的趨勢與彼此無關,注意跟independence是不相干的概念

不過可惜上面的語意老師沒有證明,當作事實認知吧,有空再去找找證明看。











Probability筆記64 - Covariance的線性性質

不論有沒有independent



所以如果a,b都是1:



如果只有X和Y兩項:



後兩式都是由第一式衍生出來的。









Probability筆記63 - 關於Variance of Sum / Covariance的dependent continuous RV範例

Damn dependence!

標題很兇,因為沒有independence的話,算expectation/variance都要按照定義去乖乖積分,會算死真的,例如本篇這題。

範例

令X,Y有joint density:


求Var(X+Y)?

因為沒有independence,一切都要按照定義來算,發瘋。

Var(X+Y) = Var(X) + Var(Y) + 2*Cov(X,Y)

而Var(X) 用快速算法 = E(X^2) - E(X)^2
E(X^2)按照定義:(或是先求fx(X),再對fx(X)積分,式子是一樣的)


E(X)^2按照定義:


所以Var(X) =


Var(Y)也如法泡製:



再來算Cov(X,Y):




最後終於可以湊成Var(X+Y):



這一題雖然是計算地獄,但是讓我重新複習了expectation的定義,釐清一些想法算是不錯,否則一直套用特定model的公式,久了會忘記原本的expectation定義要如何計算。




Probability筆記62 - 關於Variance of Sum / Covariance的Bernoulli RV範例

Example1: 10人拿帽子之Var(X+Y)

10個帽子分屬於10個人,令Bernoulli X = alice拿對的值,Bernoulli Y = bob拿對的值,求Var(X+Y)?

先注意到X和Y一定是dependent,所以首先可以寫出Var(X+Y)的公式:



由於X和Y是Bernoulli,variance = pq,這好算,對任一人來說,拿對機率p = 1/10,拿錯機率q = 9/10。

Cov(X,Y)就比較難算了,按照covariance的快速算法:


E(X)和E(Y)好算,因為Bernoulli的expectation = p = 1/10
但是E(XY)就要按照定義算了,因為不是independent RV,無法拆出來。

按照定義
E(XY) = SUM_all_xys_( P(XY = x*y) * (x*y) )

但是x*y不為0的時候只有x = 1且 y = 1,所以上式 :
E(XY) = P(X=1, Y=1) * (1*1)  = P(X =1 AND Y=1)
=  P(X=1|Y=1) * P(Y=1)   /* 採用conditional probability定義 */

= (1/9) * (1/10)

所以Cov(X,Y) =

而整體Var(X+Y) =




Example2: 10人拿帽子之Var(X1 + ... + X10)

這個很簡單,BJ4:





Probability筆記61 - Independent and Covariance

Independent implies covariance = 0

我們之前知道Var(X1+ .. + Xn) = Var(X1) + ... Var(Xn),當Xi彼此獨立的時候。

其實這個公式是從以下導出來:

(1) 我們知道(not necessarily independent RVs) Variance of sum of RVs等式如下:


(2) 當這些Xi都是彼此獨立(其實只要pairwise independent)的時候,Cov(X1,X2)  = 0,按照Covariance定義證明如下:





(3) 所以(1)中的2nd term為零,得證。








Probability筆記60 - Variance of the sum of RVs, and Covariance

Variance vs Covariance

Variance定義:


Covariance定義:

如果X=Y的話,可以看出來Var(X) = Cov(X,X)



Variance快速算法:



Covariance快速算法:



上面從第二行展開到第三行的部分:
E(XY) 就是E(XY)
E(X*E(Y)) = E(Y) * E(X),因為E(Y)這邊是一個常數
同理E(Y*E(X)) = E(X) * E(Y),因為E(X)這邊是一個常數
最後 E(E(X)*E(Y)) = E(X)*E(Y),因為本來就是常數(沒有X變數,經過E() operator之後都是常數)

這個結論倒是不用背,因為如果把Y=X,就可以直接用Var(X)得到Cov(X,Y)的式子。


Covariance / Variance of sum of RVs

covariance其實是計算一堆(不一定是independent)random variables的和的variance中間的某個產物,稱為covariance:


還是有必要一行行看清楚上式:
第一行是variance的定義無誤,

第二行E( (SUM_i=1_to_n(Xi))^2)
= E( (X1 + X2 + ... + Xn)^2 ) = E( X1^2 + X2^2 + ... + Xn^2 + X1X2 + X1X3 + .... )
= E( X1*(X1 + X2 + .. + Xn) + X2*(X1 + X2 + ... + Xn) + ... + Xn*(X1 + X2 + ... + Xn) )
= E( SUM_i=1_to_n(Xi * SUM_j=1_to_n(Xj) ) /*把 j項目當作常數分離出來 */
= E( SUM_i=1_to_n(Xi) * SUM_j=1_to_n(Xj) )

這邊弄懂上面就懂了


所以簡單來說:



舉例來說:



注意:
(1) 右邊左上到右下的對角線的terms,其實就是Var(X1) + Var(X2) + Var(X3)
(2) Cov(Xi,Xj) = Cov(Xj, Xi),這個根據定義不證自明

所以右邊“矩陣”我們可以從以上兩點性質歸納出(以下兩種可能的重寫):


結論

對不一定independent的一堆RVs,其Var(X1+ X2 + ... + Xn)可以寫成以下三種形式:





2016年12月29日 星期四

Probability筆記59 - Central Limit Theorem (大量隨機變數求和的機率)

Simple Idea

(1) infinite independent RVs,有共同的mean和variance
(2) 取其中n個RV的和進行linear transformation來變成一個standard normal RV
(3) 則P(transformed value < 某a) = P(Z <= a),當n -> INF

(不過跟大數法則好像很不一樣,因為這邊講的不是RVs的平均?)

寫成數學式:
左式為average經過Z transformation取極限值,右式則為P(Z<=a)的定義去積分Z的density function。


用途

大數量的RV的和的事件機率相當難計算(至少用手算不出來),所以CLT是一個逼近的方法,用Z來逼近。

當然n越大,逼近效果越好,但是沒有一個cutoff value說n至少要大於多少才能得到好的近似值。



範例1:CLT用在大數量的uniform RVs

有1000個independent uniform RVs X1, X2, ...X1000,都有E(Xi) = 5/2, Var(Xi) = 25/12,求此1000個隨機變數的和:X <= 2550的機率?

這個如果沒有CLT做不出來,因為我們不知道X的probability distribution,目前學過的,除非隨機變數加起來落於某種model,要不然不知道distribution。

所以按照CLT,我們將X轉換成Z:



範例2:CLT用在大r值的Gamma RVs

某Y為Gamma(r = 1000, lambda = 8),求P(620 < Y < 630)?

根據定義,Y事實上可以看成1000個independent exponential(lambda = 8) RV Yi的和,其E(Yi) = 1/8,Var(Yi) = 1/8^2 = 1/64

我們對Y的linear transformation會是 Y - 1000*E(Yi)/sqrt(1000*Var(Yi)):

根據CLT:



這邊都是根據Z的CDF table去計算,所以會有一些不等式重構的過程。




範例3:CLT用在大n值的Binomial RVs

令Y為一個binomial(n = 5000, p = 1/10) RV,求P(Y <= 520) ?

如果按照Binomial的probability定義,我們幾乎是無法手動計算的:



首先確認能否用Z來approximate binomial distribution?
答案是可以,因為此binomial可以看成是5000個 Bernoulli RV的和。

這邊有點蹊蹺了,因來為CLT是用Z來approximate 某個RV model,但是Z本身是continuous RV,我們現在要用Z來approximate discrete RV (i.e. Binomial)?

這就要用到一個校正方式:Continuity Correction

根據維基百科:
In probability theory, a continuity correction is an adjustment that is made when a discrete distribution is approximated by a continuous distribution.

因為Y的定義域為integer,所以如果把P(Y <= 520) = P(Y <= 520.1) = P(Y <= 520.9) ....
但是Z是continuous RV,所以用520還是用520.1還是用520.9來逼近得到的答案都不一樣,這個校正採取了折衷的方式,取 520 + 0.5 = 520.5來當approximation的基準。

所以P(Y <= 520) = P(Y <= 520.5) =


範例4:CLT用在大數目的Bernoulli RVs

有2500個Bernoulli RV Xi, E(Xi) = 1/3, Var(Xi) = 1/3*2/3,試求P( 830 <= SUM(Xi) <= 840 )

按照定義計算的話,我們手動無法達成:


改用CLT:
Bernoulli RVs是 discrete RV,我們現在要用Z來approximate它的機率分佈的話,那必須用到continuity correction:



所以:




範例5:CLT用在大lambda的Poisson RVs

Poission RV (lambda = a)可以看成a個 Possion RVs (lambda = 1, variance = 1^2 = 1)的和,所以我們可以用CLT來逼近Poisson RV的機率。






2016年12月28日 星期三

Probability筆記58 - Laws of Large Number

Weak Laws of Large Numbers

符合使用前提:

(1) 有無限個independent RVs
(2) 有相同的mean為miu。


令前n個RVs的平均數為m。

則事件 “|miu-m| > 某常數epsilon”的機率,隨著n趨近無限大,機率趨近於0。

寫成數學式:



白話文:如果有無限多個有相同mean的RVs,可以取其中n個的平均數來逼近每個RV的mean,當n趨近於無限大的時候,大於誤差epsilon的機率為0。

Strong Laws of Large Numbers







以上兩者都需要高深的數學技巧與知識去證明,在此略過,記住有此定理即可。




Probability筆記57 - Normal Random Variables(4) sum of Normal RVs

normal RV做linear transformation t仍然是一個normal RV

這個很好理解,因為normal RV X是standard normal Z經過linear transformation t1,但如果combine t1和t成一個單一的linear transformation,則可以產生另一個normal RV Y,則Y事實上也是X經過t轉換之後的normal RV,故成立。

假設經過Y為X的linear transformation結果:

Y =
E(Y) =


Var(Y) =



sum of Independent Normal RVs is also a Normal RV

注意:前提是independent!!!

如果X1, X2, .... Xn都是normal RV,則X = X1+X2+ .... + Xn 也是一個normal RV。

這個應該可以簡單證明,但是老師沒證,就當個先驗知識吧!

E(X) = E(X1+X2+..) = E(X1) + E(X2) + .. E(Xn) = miuX1 + miuX2 + ....  + miuXn
Var(X) = Var(X1 + X2 + ... ) = Var(X1) + Var(X2) + ... = (sigmaX1)^2 + ... + (sigmaXn)^2
SD(X) =
所以這個X 要怎麼轉變成Z? 我們前面已經知道Z = (X - meanX)/sigmaX,所以Z =


也沒必要特別記啦,如果算出mean和sigma,就可以算了。



特例:當independent Xi都是有一樣的probability distribution

意即mean / sigma都一樣,則用Xi來表示Z =



範例1: 簡單查表

X1,X2, ... X100皆為同樣probability distribution的independent normal RV,mean = 3 and variance = 5。求P(X1+...+X100 <= 313)?

這是標準的找CDF table值的題目,所以我們要先把X = SUM(Xi)轉換成Z:

P(X1+X2+...+X100 <= 313)
= P(X <= 313)
= P( (X - miuX) / sigmaX) <= (313 - miuX) /sigmaX )

miuX = 100 * 3 = 30
sigmaX = sqrt(100*5)

所以P(X <= 313)
= P( Z  <= 313 - 300 / sqrt(500) )
= P( Z <= 0.58)
= 0.7190 /* 查表 */


範例2: 找出threshold a使得X的機率 <= 已知數

independent normal RV X1,X2, ... ,X150 , 有E(Xi) = 3.5, var(Xi) = 1.2,找出P(X1+X2+...+X150 <= a) ~= 0.9 ?

這個題目是反過來,知道CDF值,求a。

X = X1+X2+ .. + X150
E(X) = 3.5*150
SD(X) = sqrt( 1.2*150 )

P(X <= a) = P(Z <= a - E(X) / SD(X)) = 0.9

我們查表可以知道P(Z <= 1.28 ) =0.8997
所以  a - E(X) / SD(X) = 1.28
a = 542.17

這語意為“90% of the time that X is <= 542.17”


範例3:找出x interval使得X落在此interval的機率 <= 已知數


承上題,找出一個interval of x[miuX-a, miuX+a],中心點為X的mean,
使得P(miuX-a <= X <= miuX+a) ~= 0.8?

上題中我們已經得到以下的區間的機率:



而且已知P(X <= 525) = 0.5,為什麼?因為525是mean,而且X是一個normal RV,density是對稱於mean的。

所以P( mean <= X <= 542.17 ) = 0.9 - 0.5 = 0.4
所以其實我們早就找到了a = 542.17 - 525(其實是老師設計的好)


範例4:不同probability distribution的Xi Yi時

這其實沒什麼不同,因為我們前三題算的其實是特例,但是通例我們也知道怎麼算,在

“sum of Independent Normal RVs is also a Normal RV”

小節中,就告訴我們了。

所以假設independent Xi的mean = 1.6, variance = 2.2,而independent Yi mean = 3, variance = 2.3
則X = Xi + Yi,P(X < 400) = 







範例5:X-Y的機率?

X, Y為independent normal RV,則X - Y也是一個normal RV,為何?
因為-Y是Y做-1倍的scaling,所以-Y是一個normal RV,
所以X + (-Y) 是一個normal RV,因為我們前面已經說過一堆independent normal RV的和仍然是一個normal RV。


-Y的mean = E(-Y) = -E(Y) = -mean of Y
-Y的variance = var(-Y) = (-1)^2 * var(Y) = variance of Y = (sigmaY)^2
所以X-Y的 mean = meanX + mean(-Y) = miuX - miuY
var(X-Y) = (sigmaX)^2 + (sigmaY)^2

例如:




Probability筆記56 - Normal Random Variables(3) 什麼叫1, 2, 3個標準差之內的發生機率?

我們常聽到這類的說法,甚至有極不可能發生的,所謂的“六個標準差”之外的發生機率,這類的說法都是指normal density而言,不過塔雷伯對濫用normal model造成一些發生機率以為極低的黑天鵝事件,不以為然,暫且按下不表。

所謂一個標準差內的發生機率定義為以mean為中心點,左右各延伸一個標準差的x範圍的機率




所以若某outcome x屬於normal X,則此x落入一個標準差區間內的發生機率為 ~= 68%


x落入兩個標準差區間內發生的機率:




x落入三個標準差區間內發生的機率: