code

2016年12月29日 星期四

Probability筆記59 - Central Limit Theorem (大量隨機變數求和的機率)

Simple Idea

(1) infinite independent RVs,有共同的mean和variance
(2) 取其中n個RV的和進行linear transformation來變成一個standard normal RV
(3) 則P(transformed value < 某a) = P(Z <= a),當n -> INF

(不過跟大數法則好像很不一樣,因為這邊講的不是RVs的平均?)

寫成數學式:
左式為average經過Z transformation取極限值,右式則為P(Z<=a)的定義去積分Z的density function。


用途

大數量的RV的和的事件機率相當難計算(至少用手算不出來),所以CLT是一個逼近的方法,用Z來逼近。

當然n越大,逼近效果越好,但是沒有一個cutoff value說n至少要大於多少才能得到好的近似值。



範例1:CLT用在大數量的uniform RVs

有1000個independent uniform RVs X1, X2, ...X1000,都有E(Xi) = 5/2, Var(Xi) = 25/12,求此1000個隨機變數的和:X <= 2550的機率?

這個如果沒有CLT做不出來,因為我們不知道X的probability distribution,目前學過的,除非隨機變數加起來落於某種model,要不然不知道distribution。

所以按照CLT,我們將X轉換成Z:



範例2:CLT用在大r值的Gamma RVs

某Y為Gamma(r = 1000, lambda = 8),求P(620 < Y < 630)?

根據定義,Y事實上可以看成1000個independent exponential(lambda = 8) RV Yi的和,其E(Yi) = 1/8,Var(Yi) = 1/8^2 = 1/64

我們對Y的linear transformation會是 Y - 1000*E(Yi)/sqrt(1000*Var(Yi)):

根據CLT:



這邊都是根據Z的CDF table去計算,所以會有一些不等式重構的過程。




範例3:CLT用在大n值的Binomial RVs

令Y為一個binomial(n = 5000, p = 1/10) RV,求P(Y <= 520) ?

如果按照Binomial的probability定義,我們幾乎是無法手動計算的:



首先確認能否用Z來approximate binomial distribution?
答案是可以,因為此binomial可以看成是5000個 Bernoulli RV的和。

這邊有點蹊蹺了,因來為CLT是用Z來approximate 某個RV model,但是Z本身是continuous RV,我們現在要用Z來approximate discrete RV (i.e. Binomial)?

這就要用到一個校正方式:Continuity Correction

根據維基百科:
In probability theory, a continuity correction is an adjustment that is made when a discrete distribution is approximated by a continuous distribution.

因為Y的定義域為integer,所以如果把P(Y <= 520) = P(Y <= 520.1) = P(Y <= 520.9) ....
但是Z是continuous RV,所以用520還是用520.1還是用520.9來逼近得到的答案都不一樣,這個校正採取了折衷的方式,取 520 + 0.5 = 520.5來當approximation的基準。

所以P(Y <= 520) = P(Y <= 520.5) =


範例4:CLT用在大數目的Bernoulli RVs

有2500個Bernoulli RV Xi, E(Xi) = 1/3, Var(Xi) = 1/3*2/3,試求P( 830 <= SUM(Xi) <= 840 )

按照定義計算的話,我們手動無法達成:


改用CLT:
Bernoulli RVs是 discrete RV,我們現在要用Z來approximate它的機率分佈的話,那必須用到continuity correction:



所以:




範例5:CLT用在大lambda的Poisson RVs

Poission RV (lambda = a)可以看成a個 Possion RVs (lambda = 1, variance = 1^2 = 1)的和,所以我們可以用CLT來逼近Poisson RV的機率。






沒有留言:

張貼留言