albert's blog: [閱讀筆記] HOW NOT TO BE WRONG - 第10章：上帝，祢在嗎？是我，貝氏推論 (Are You There, God? It’s Me, Bayesian Inference)

2021/09/12

[閱讀筆記] HOW NOT TO BE WRONG - 第10章：上帝，祢在嗎？是我，貝氏推論 (Are You There, God? It’s Me, Bayesian Inference)

⛅ 當資料收集越詳細，電腦運算能力越強，確實可以讓預測結果更好。美國數學與氣象學家 Edward Lorenz：「不管我們收集多少資料，對於能預測多久以後的天氣，仍有難以跨越的極限，我認為我們頂多只能預測兩週內的天氣。」目前全世界氣象學家共同努力的結果，仍無法打破 Lorenz 的估計。
對於天氣，我們有非常優良的數學模型，只要增加數據量，至少在短期預報可以表現很好，儘管我們知道天氣系統內在的混沌性，最終會破壞預報準確性。但對於人類行為，我們連模型都沒有，也可能永遠都不會有，這使預測人類行為難上加難，比預測天氣還難。
Facebook 使用演算法算出可能的恐怖份子，真的是是恐怖份子的機率有多少？

Assumption

假設美國人口 2 億人，base rate 如下：

分析結果

P(被誤會是恐怖份子) = 99,99099,990 + 199,890,010=99,990199,990,000=0.0005
演算法挑出來的嫌疑人，幾乎是清白 (在名單內，不是恐怖份子的機率高達 99.99%)；清白的人，很少被標示為嫌疑人。

貝氏定理 (Bayes' Theorem)

Bayes' Theorem

公式

P(A|B) 是已知 B 發生後，A 的條件機率。
P(A) 是 A 的事前機率，不考慮任何 B 方面的因素。
P(B|A) 是已知 A 發生後， B 的條件機率。
P(B) 是 B 的事前機率。

郵件例子

給定機率

事前機率

P(spam)=0.3
P(contains offer | spam)=0.8
P(contains offer)=0.3*0.8+0.7*0.1=0.31

推論機率：offer 信件在垃圾郵件出線機率高達 77%

P(spam | contains offer)=P(spam)P(contains offer|spam)P(contains offer)=0.30.80.31=0.77

新冠病毒

檢測例子

給定機率
事前機率

P(covid19)=0.6
P(positive | covid19) = 0.99
P(positive)=0.60.99+0.40.01=0.598

推論機率：檢驗結果陽性且真的有中標的機率為99%

P(covid19|positive)=P(covid19)P(positive|covid19)P(positive)=0.60.990.598=0.99

如果你想要成為具有正確直覺的貝氏統計學家，若你想自然地做出正確預測，不需思考應採用哪個預測法則，就必須好好保護你的事前分布，你該做的反而是違反直覺地少看新聞。
Sherlock Holmes 曾說：我有一條座右銘，當你把不可能都排除後，不管剩下來的可能性有多低，必然是真相，除非真相是你從沒想過的假設。

No comments:

Subscribe to: Post Comments (Atom)