2021/09/12

[閱讀筆記] HOW NOT TO BE WRONG - 第10章:上帝,祢在嗎?是我,貝氏推論 (Are You There, God? It’s Me, Bayesian Inference)

 

  1. ⛅ 當資料收集越詳細,電腦運算能力越強,確實可以讓預測結果更好。美國數學與氣象學家 Edward Lorenz:「不管我們收集多少資料,對於能預測多久以後的天氣,仍有難以跨越的極限,我認為我們頂多只能預測兩週內的天氣。」目前全世界氣象學家共同努力的結果,仍無法打破 Lorenz 的估計。

  2. 對於天氣,我們有非常優良的數學模型,只要增加數據量,至少在短期預報可以表現很好,儘管我們知道天氣系統內在的混沌性,最終會破壞預報準確性。但對於人類行為,我們連模型都沒有,也可能永遠都不會有,這使預測人類行為難上加難,比預測天氣還難。

  3.  Facebook 使用演算法算出可能的恐怖份子,真的是是恐怖份子的機率有多少?

Assumption

假設美國人口 2 億人,base rate 如下:

分析結果

  • P(被誤會是恐怖份子) = 99,99099,990 + 199,890,010=99,990199,990,000=0.0005

  • 演算法挑出來的嫌疑人,幾乎是清白 (在名單內,不是恐怖份子的機率高達 99.99%);清白的人,很少被標示為嫌疑人。


  1. 貝氏定理 (Bayes' Theorem)

Bayes' Theorem

公式

  • P(A|B) 是已知 B 發生後,A 的條件機率。

  • P(A) 是 A 的事前機率,不考慮任何 B 方面的因素。

  • P(B|A) 是已知 A 發生後, B 的條件機率。

  • P(B) 是 B 的事前機率。

郵件例子

  • 給定機率

  • 事前機率

    • P(spam)=0.3

    • P(contains offer | spam)=0.8

    • P(contains offer)=0.3*0.8+0.7*0.1=0.31

  • 推論機率:offer 信件在垃圾郵件出線機率高達 77%

P(spam | contains offer)=P(spam)P(contains offer|spam)P(contains offer)=0.30.80.31=0.77

新冠病毒

檢測例子

  • 給定機率

  • 事前機率

    • P(covid19)=0.6

    • P(positive | covid19) = 0.99

    • P(positive)=0.60.99+0.40.01=0.598

  • 推論機率:檢驗結果陽性且真的有中標的機率為99%

P(covid19|positive)=P(covid19)P(positive|covid19)P(positive)=0.60.990.598=0.99


  1. 如果你想要成為具有正確直覺的貝氏統計學家,若你想自然地做出正確預測,不需思考應採用哪個預測法則,就必須好好保護你的事前分布,你該做的反而是違反直覺地少看新聞

  2. Sherlock Holmes 曾說:我有一條座右銘,當你把不可能都排除後,不管剩下來的可能性有多低,必然是真相,除非真相是你從沒想過的假設。

No comments:

Post a Comment