2021/06/07

[閱讀筆記] Algorithms to Live By - 貝氏法則 (Bayes’s Rule)

 貝氏法則 (Bayes’s Rule) - 預測未來

  1. Laplace’s Law (拉普拉斯定律) 計算期望值:假設買 n 張彩券有 w 張中獎,期望值= (w+1)/(n+2)。想算出公車遲到機率嗎?你參加的壘球隊的贏球機率?只要算一下過往發生次數 + 1,再除以機會數 + 2 即可。拉普拉斯定律的優點在於,無論只有一個資料點或是有數百萬個資料點,它一樣有效。例如,地球上已經連續看見太陽約 1.6 億次,明天太陽還是會升起的機率與 100% 無差別。

  1. 貝氏定理 (Bayes' Theorem)

公式

  • P(A|B) 是已知 B 發生後,A 的條件機率。

  • P(A) 是 A 的事前機率,不考慮任何 B 方面的因素。

  • P(B|A) 是已知 A 發生後, B 的條件機率。

  • P(B) 是 B 的事前機率。

郵件例子

  • 給定機率

  • 事前機率

    • P(spam)=0.3

    • P(contains offer | spam)=0.8

    • P(contains offer)=0.3*0.8+0.7*0.1=0.31

  • 推論機率:offer 信件在垃圾郵件出線機率高達 77%

P(spam | contains offer)=P(spam)P(contains offer|spam)P(contains offer)=0.30.80.31=0.77

新冠病毒

檢測例子

  • 給定機率

  • 事前機率

    • P(covid19)=0.6

    • P(positive | covid19) = 0.99

    • P(positive)=0.60.99+0.40.01=0.598

  • 推論機率:檢驗結果陽性且真的有中標的機率為99%

P(covid19|positive)=P(covid19)P(positive|covid19)P(positive)=0.60.990.598=0.99

戴眼鏡例子

  • 給定機率

  • 事前機率

    • P(戴眼鏡) = 0.8

    • P(男生|戴眼鏡) = 0.5

    • P(男生) = 0.80.5+0.20.6=0.52

  • 推論機率:男生且戴眼鏡的機率為 76.9%

P(戴眼鏡|男生)=P(戴眼鏡)P(戴眼鏡|男生)P(男生)=0.80.50.52=0.769

心臟病檢測例子

  • 給定機率

  • 事前機率

    • P(有心臟疾病) = 0.004

    • P(有檢查到 | 有心臟疾病) = 0.9

    • P(有檢查到心臟病) = 0.0040.9+0.9960.005=0.0534

  • 推論機率:心電圖檢查被判定成患有心肌梗塞的疾病,且真的有的機率 P(真的有心臟疾病 | 有檢查到心臟病)

P(真的有心臟疾病)P(有檢查到 | 有心臟疾病)P(有檢查到)=0.0040.90.0534=0.0674


  1. 哥白尼原理 (Copernican principle):相較於貝式定理知道事前機率,若面臨「無提示性事前機率」(uninformative prior),適合運用哥白尼原理來做推測。

情境

推測方法

預估城市有幾台電車

運用哥白尼原理,把已知車輛序號乘以 2。

同盟國預估德國每月製造坦克數量

運用哥白尼原理,依照捕獲的坦克序號乘以 2,估計德國每月可製造 246 台。大戰結束後,依據德國的數據,確實數量是 245 台。

1969 年在柏林圍牆前,預估能繼續存在多久

我們該用什麼時間尺度都不知道,當時已存在 8 年,就運用哥白尼原理預估柏林圍牆應可存在 16 年 (82)。

一個 90 歲的老人,預估其還能存活多久

我們已經很了解人類壽命,不適用哥白尼原理;此情境應用貝氏定理,當事前資訊越多,得出的預測就越有用


  1. 幂律分布 (Power Law Distribution) 的概念,類似80 / 20 法則。例如,最有名的明星收入與影響力比所謂的二線明星多非常多,而二線明星又比那些剛出道的小咖多得多。Peter Thiel 在《從零到一》這本書中提到,在創投的領域,很可能回報最豐厚的那家公司比剩下其他全部加起來還多;而第二豐厚的則比第一以外的全部加起來還多,所以「公司排名vs投資回報率」呈現類似於下圖 (Ref: https://reurl.cc/e9Db2Q)

  1. 常態分布 vs 幂律分布

  1. 貝氏法則告訴我們,要以有限的證據進行預測時,最重要的條件是擁有正確的事前分布,也就是知道哪種分布可為我們提供證據。因此要做出正確預測,基本條件是知道遇到的是常態分布還是幂律分布,對於這兩種分布,貝氏法則分別提供簡單、但完全不同的預測規則。

分布

說明

例子

常態

分布

呈現常態分布的事物,如果持續很久,通常不久之後就會結束。

人類壽命、體重、血壓、身高、電影片長等。


常態分布的事件若提早發生,會令人驚訝,因為我們預期會發生在平均值 (ex. 英年早逝);但晚於平均值則不會。若常態分布的事件遲到,我們等待越久,期待就會越大。


平均法則是當一個人的年齡小於平均壽命,直接以平均壽命當成預測年齡;當預測對象超過平均壽命,則預測他會多活幾年

幂律

分布

呈現幂律分布的事物,持續的時間越長,預計繼續持續的時間就會越長。

富者越富、鐵達尼號的票房吃掉當年整個電影產業大部分的營收。


事件已持續時間越長,就越可能持續下去。例如,一個企業、機構、國家的歷史越悠久,就越可能繼續存活;但是當百年企業倒閉,會令人訝異。


乘法法則是把目前觀察到的機率乘以某個常數,以無提示性事前機率而言,這個常數剛好是 2

erlang 

分布

(無記憶分布)

已持續的事物對結束不產生影響的事物。

汽車流量、放射性衰變、政治人物任期持續時間、人類拖延的心態 (再五分鐘就好、再五分鐘就好)、成癮賭徒的結束時間等。


無論何時發生,都不讓人感到驚訝,任何事件無論已經持續多久、結束的可能性都相等,難怪政客會想要一直選下去。


加法法則是事物持續時間的預測值一定會逐漸加長,加長量是固定的無記憶分布沒有正確的放棄時間,也是賭徒之所以上癮的主因


  1. 在沒有適當的事前分布的情況下,我們就無法做出準確預測。例如,預測法老王的在位期間,這就是 erlang 分布,一般人很少接觸這類資料,沒有機會建立這類時間範圍的直覺,當然無法準確預測。但是,我們對人類壽命有精確的事前分布,故能精準預測。由此可見,適當的事前分布是準確預測的必要條件

  2. 棉花糖測驗

  1. 在另一組棉花糖實驗中,因幼兒無法信任實驗者,無法確定是否會回來,幼兒大多會選擇吃掉,而非等待。學習自我控制很重要,但在成人經常陪同且值得信任的環境中長大,同等重要

  1. 如同貝式定理所述,要做出準確預測的最佳方式,是確實了解我們要預測的事物,但因平面媒體、電視新聞、社群媒體的問世,讓這個挑戰越來越大。例如,媒體不斷放送飛機失事新聞,讓你忽略車禍喪命的人數遠高於飛機失事人數;美國凶殺案在 1990 年代降低 20%,但此段時間美國槍枝暴力案件的見報率卻提高 600%。如果你想要成為具有正確直覺的貝氏統計學家,若你想自然地做出正確預測,不需思考應採用哪個預測法則,就必須好好保護你的事前分布,你該做的反而是違反直覺地少看新聞

  2. 每個決定都是一種預測,預測我們對陌生事物的喜愛程度、預測某個趨勢會怎麼發展、預測較少走的路會怎麼樣。殘酷的是,每次預測都必須考慮兩件完全相反的事:我們知道什麼與不知道什麼。預測是試圖提出一個理論,解釋我們目前擁有的經驗,同時預測未來的某些事物。好的理論能同時滿足兩個要求,但每項預測都身負雙重責任,也造成難以避免的矛盾。

No comments:

Post a Comment