Tuesday, April 2, 2019

Odds ratio 和 機率比 (Probability ratio) 的一個哲學上的省思


男生十個裏頭有八個抽菸的, 所以男生抽菸的機率是 0.8
女生十個裏頭有兩個抽菸的, 所以女生抽菸的機率是 0.2
這時候我們說男生抽菸的機率是女生的4倍, 但這說明了什麼?
(此處的男生抽菸機率, 女生抽菸機率屬於先驗概率 Prior probability)
男生比女生更喜歡抽菸? 是這樣嗎? 男生發生抽菸的機率比女生高並不能證明男生和抽菸的關聯性大於女生, 機率是一種或然性, 是隨機性的一種度量.
機車肇事率比汽車肇事率甚至是飛機肇事率高並不能證明機車比起其他交通工具更不安全, 這是一般人對於機率比的一種錯覺.
所以 Odds ratio 的概念就被發明出來了!
男生抽菸的比起男生不抽菸的發生比率是 (0.8/0.2)=4
女生抽菸的比起女生不抽菸的發生比率是 (0.2/0.8)=0.25
所以男生相對於女生在抽菸這件事情上的 Odds ratio 是 (4/0.25)=16
意思就是男生族群和發生抽菸這件事的關聯性強度是女生族群和抽菸關聯性強度的16倍

同一件事情, 用機率比(其實就是 Analytical Epidemiology 說的 RR)來看是四倍, 用 Odds ratio 來看是 16 倍. Odds ratio (OR)似乎傾向放大機率比(RR)的倍數, 這就是為何科學界喜歡用 Odds ratio 的原因, 特別是當兩者機率非常接近的時候.
上面舉的抽菸例子, 如果將男生抽菸機率改為 0.55 , 女生抽菸機率改為 0.45,
則機率比是 (0.55/0.45) = 1.22222......,  但是 Odds ratio 就變成
(0.55/0.45) / (0/45/0/55) = (0.55/0.45)^2 = 1.493.......
看到沒有? 當要調查或是比較的對象有接近的機率的時候, Odds ratio 比機率 ratio 更能判斷出調查對象之間的關聯性!

現在將問題複雜化, 樣本母群體是所有中國人加美國人, 所以男生抽菸機率其實包括中國男生抽菸機率和美國男生抽菸機率, 當你任意從所有抽菸的男性之中抽出一名美國人的機率為何? p( 美國人 | 抽菸男性 ) 這個機率就是後驗機率 Posterior probability, 但是如果問題是求從所有美國人中抽出一名男性抽菸者的機率為何 p( 抽菸男性 | 美國人 ), 這個就是似然機率, 似然機率也好, 後驗機率也好, 兩者同屬條件機率.

Bayes Inference:  P(A|B) = (P(B|A)/P(B)) * P(A), A事件的全機率是先驗機率, 所以貝耶斯推斷就是說 "後驗機率=先驗機率 * 調整因子", 調整因子就是似然函數, 就是 P(B|A)/P(B) , 如果調整因子的實驗結果大於1, 將會增強與先驗機率相乘之後的結果, 則B事件條件之下A事件發生機率增加, 如果調整因子實驗結果=1, 則A事件的後驗機率與其先驗機率相等, 意味B事件發生無助於A事件發生, 如果調整因子小於1, 說明B事件發生之後減弱A事件的先驗機率, 所以衝擊A事件的發生, 上述這個推理過程就是貝氏推斷! 現在舉一個例子說明:
假設中國人口男性占75%, 女性 25%, 美國男性 50%, 女性 50%, 在馬路上隨機遇到一個中國人或是美國人的機率是一樣, 各為 0.5, 現在上馬路遇見一名男性, 請問這名男性是中國人的機率為多少?
P(中國人)=0.5 ; P(美國人)=0.5,
P(男性)=P(男性|中國人)P(中國人) + P(男性|美國人)P(美國人)=(0.75*0.5)+(0.5*0.5)=0.625
所以求 P(中國人|男性)=[ P(男性|中國人)/P(男性) ] * P(中國人)=[0.75/0.625]*0.5=0.6
在這個例子, 原本隨機遇到中國人的先驗機率是 0.5, 但在是男性的前提之下, 遇見中國人的機率增為 0.6, 因為調整因子是 1.2, 是大於1 的增強因子, 所以後驗機率變大了!