code

2016年12月18日 星期日

Probability筆記25 - Discrete RV模型(3): Geometric RV

兩種定義

Geometric RV用在model "n trials until success"的trials次數,這個有兩種可能:

1. geometric: 也就是包括成功那次,形成的一個geometric RV X


PMF:


其中q為失敗的機率,p為成功的機率。
很好理解。


2. geometric number of losses: 不包括成功的那次,這個RV值其實就是X-1,如果用X來描述的話

PMF:

這兩者其實是一樣的東西變化出來的。

我們通常講的geometric RVs是在講第一種。


範例

10%的人類是左撇子,令X為獨立取樣人們直到找到左撇子的次數(包括成功那次),問E(X)?

按照E(X)的定義:

E(X) = X(1)P({R}) + X(2)P({LR}) + X(3)P({LLR} + .....
= 0.1 + 2*0.1*0.9 + 3*(0.1)^2*0.9 +....

不過這在計算上不好計算,陷入之前需要用到微積分的窘境(見筆記16)。所以我們仍然可以採用之前的技巧(事實上之前已經用過了indicators,只是沒正名此為geometric RV):

令Xj為indicator, 使得Xj(需要>=j次數才找到左撇子)= 1,這個indicator定義天生的就避免了那個不能成為geometric series的乘數係數,反之為0
所以E(Xj) = P(X >= j) = 0.9^(j-1)

現在找E(X):
X = X1+X2+X3+ ..... + X

E(X) 
= E(X1) + E(X2) + ... 
= 0.9^(0) + 0.9^1 + 0.9^2
= 1/(1-0.9) 
= 10

這是個有趣的數字,機率0.1的左撇子人口,平均取樣十次才會遇到一次左撇子,的確符合我們一般人對此敘述的理解。

快速公式算出E(X)

由上面範例我們可以得出一個通式:


現在也可以知道為什麼叫做geometric RV,因為E(X)其實就是公比為q的geometric series!

非常快!


Variance(X)

直接跳到結論: Var(X)  =  q/(p)^2


按照Var(X)定義去證明,會遇到E(X^2)怎麼計算的難題,首先要用代數技巧拆成另一個等式,然後再觀察初二次微分的結果特徵,最後化簡。

所以證明從簡吧!



Inequalities

Geometric RV X容易令人混淆的不等式機率歸納如下:
先知道:X=j 的意義為trial直到第j次才成功,機率P(X=j) = q^(j-1)*p

1. P(X > j)  解讀為至少失敗j次,所以P(X > j ) = q^j
2. P(X >= j)  解讀為至少失敗j-1次,所以P(X >= j) = q^j-1
3. P(X < j ) 解讀最多j-1次就要成功,這個只能由complement來算,P(X < j) = 1 - P(X>=j) = 1 - q^j-1
4. P(X<=j) = 1 - P(X > j) = 1 - q^j


Memoryless特性(只有discrete geometric RV才有)

簡言之,P(X > i+j | X > i) = P(X > j)

為什麼?按照conditional probability定義去算以上的話,很容易證明。
不過直覺也很容易理解,如果已經發生了X > j,代表已經至少要fail i次,所以要至少fail i+j次的機率就是還要fail j次的機率。

為何稱為memoryless?因為X已經fail i次 是history,所以P(X > i+j) = P(X > j)。
好吧這邊不太理解為什麼叫做memoryless....




沒有留言:

張貼留言