Total Pageviews

2021/09/12

[閱讀筆記] HOW NOT TO BE WRONG - 第10章:上帝,祢在嗎?是我,貝氏推論 (Are You There, God? It’s Me, Bayesian Inference)

 

  1. ⛅ 當資料收集越詳細,電腦運算能力越強,確實可以讓預測結果更好。美國數學與氣象學家 Edward Lorenz:「不管我們收集多少資料,對於能預測多久以後的天氣,仍有難以跨越的極限,我認為我們頂多只能預測兩週內的天氣。」目前全世界氣象學家共同努力的結果,仍無法打破 Lorenz 的估計。

  2. 對於天氣,我們有非常優良的數學模型,只要增加數據量,至少在短期預報可以表現很好,儘管我們知道天氣系統內在的混沌性,最終會破壞預報準確性。但對於人類行為,我們連模型都沒有,也可能永遠都不會有,這使預測人類行為難上加難,比預測天氣還難。

  3.  Facebook 使用演算法算出可能的恐怖份子,真的是是恐怖份子的機率有多少?

Assumption

假設美國人口 2 億人,base rate 如下:

分析結果

  • P(被誤會是恐怖份子) = 99,99099,990 + 199,890,010=99,990199,990,000=0.0005

  • 演算法挑出來的嫌疑人,幾乎是清白 (在名單內,不是恐怖份子的機率高達 99.99%);清白的人,很少被標示為嫌疑人。


  1. 貝氏定理 (Bayes' Theorem)

Bayes' Theorem

公式

  • P(A|B) 是已知 B 發生後,A 的條件機率。

  • P(A) 是 A 的事前機率,不考慮任何 B 方面的因素。

  • P(B|A) 是已知 A 發生後, B 的條件機率。

  • P(B) 是 B 的事前機率。

郵件例子

  • 給定機率

  • 事前機率

    • P(spam)=0.3

    • P(contains offer | spam)=0.8

    • P(contains offer)=0.3*0.8+0.7*0.1=0.31

  • 推論機率:offer 信件在垃圾郵件出線機率高達 77%

P(spam | contains offer)=P(spam)P(contains offer|spam)P(contains offer)=0.30.80.31=0.77

新冠病毒

檢測例子

  • 給定機率

  • 事前機率

    • P(covid19)=0.6

    • P(positive | covid19) = 0.99

    • P(positive)=0.60.99+0.40.01=0.598

  • 推論機率:檢驗結果陽性且真的有中標的機率為99%

P(covid19|positive)=P(covid19)P(positive|covid19)P(positive)=0.60.990.598=0.99


  1. 如果你想要成為具有正確直覺的貝氏統計學家,若你想自然地做出正確預測,不需思考應採用哪個預測法則,就必須好好保護你的事前分布,你該做的反而是違反直覺地少看新聞

  2. Sherlock Holmes 曾說:我有一條座右銘,當你把不可能都排除後,不管剩下來的可能性有多低,必然是真相,除非真相是你從沒想過的假設。

2021/09/11

[閱讀筆記] HOW NOT TO BE WRONG - 第9章:內臟占卜學 (The International Journal Of Haruspicy)

 

  1. 想在國際期刊發表論文,必須通過標準的統計顯著性門檻,也就是 p 值 0.05。換句話說,20 次要成功 1 次。回憶 p 值 的定義:某項實驗若虛無假設為真,則實驗有 1/20 的機會,能產生具有統計意義的結果。倘若虛無假設永遠為真,也就是說內臟占卜學純粹是騙人的,那麼 20 次實驗裡也只有 1 次能發表。

  2. 以下的方格圓圈,是說明相關基因數量的好辦法。格子裡圓圈的大小代表該區域裡基因的數目,左上與左下代表未通過顯著性檢定的基因;右上與右下有通過顯著性檢定,右上是真陽性 (有通過檢定且真有作用),右下是偽陽性 (有通過檢定但無作用)。顯著性檢定並非問題所在,它只是在做份內的事。與思覺失調症無關的基因很少會通過檢定,而我們感到有興趣的基因則會一半會通過檢定,偽陽性雖然比真陰性少,但遠比真陽性多

  1. 偽陽性問題:假設大麻檢測率有 95% 的檢驗準確率、估計 5% 的人有吸食大麻,被檢驗出陽性且真的有吸食大麻的人,機率有多高

樹狀圖

Bayes Theorem 計算過程

  • P(有吸食大麻)=.05

  • P(陽性 | 有吸食大麻) = .95

  • P(陽性)=.05.95+.95.05=.095

  • P(有吸食大麻 | 陽性)=P(有吸食大麻) P(陽性 | 有吸食大麻)P( 陽性)=.05.95.095=.5

  • 被檢驗出陽性且真的有吸食大麻的人,機率只有 50%;代表被檢測出陽性的員工,高達 50% 沒有吸食大麻


  1. 醫療檢驗提供診斷用的篩選資訊,但病人經常會理解錯誤,有時甚至醫生也會。了解稱作「敏感度 (sensitivity)」和「特異性 (specificity)」的機率特徵能提供更為準確且 (有的時候) 令人安心的畫面。(Ref: Statistics Hacks: Tips & Tools for Measuring the World and Beating the Odds)

可能的醫療檢驗結果


病人實際該症狀 (A)

病人實際該症狀 (B)

檢驗結果顯示該症狀

true positive

真陽性

敏感度 (sensitivity)

false positive

偽陽性

檢驗結果顯示該症狀

false negative

偽陰性

true negative

真陰性

特異性 (specificity)

敏感度 (sensitivity)

特異性 (specificity)

  • 若一個人真的有該疾病,檢驗結果為陽性的機率有多高

  • 即 A 欄中,有多少比率會得到陽性的檢驗結果

  • 若一個人沒有該疾病,檢驗結果為陰性的機率有多高

  • 即 B 欄中,有多少比率會得到陰性的檢驗結果

如果一個人得到陽性的檢驗結果,那麼這個人真的有該種疾病的可能性有多高?從病人的角度來看,可被視為這些檢驗基本的有效性考量。病人會問,醫生,我可以相信這些檢驗結果嗎?有可能哪裡出錯嗎?

  1. 在醫學上,偽陽性是可被接受的,盡早發現、盡早治療

  2. 如何判斷正確理論或胡謅?有兩種良方:常識與新數據。

如何判斷胡謅

說明

用常識判斷

若某種理論聽起來很可笑,在看到壓倒性的證據前,絕不輕易相信。即使看到壓倒性的證據,仍保持懷疑態度。不尋常的說法需要不尋常的證據。遺憾的是,在這個年代,常識是個稀缺品,許多誠實的研究人員用嚴肅語氣提出愚蠢研究。

用新數據驗證

當你收集資料、編造理論時,用同份資料進行檢驗是不明智的。既然你的理論是從這些資料得出結論的,怎麼檢驗都會符合結論,應使用不受資料收集污染的新資料來做驗證


  1. 2012 年,美國安進(Amgen) 製藥公司進行一項研究,他們挑選 53 個極出名的癌症生理研究,嘗試複製研究結果,結果只有 6 個可以成功複製結果。。實驗重現的危機僅反映出科學研究的困難,我們的想法經常不正確,即便這些想法已通過初步的統計檢定的研判

  2. 發表偏差 (publication bias) 或稱為抽屜問題 (file drawer problem),是指使用統計顯著性作為發表與否的門檻,可能會大幅扭曲某些假設獲得的證據,例如,第六章提及股票經紀人的套路。投資人跟科學家一樣,只看到因巧合而成功的那次就信以為真,但是卻忽視為數眾多的失敗案例 (ex. 沒有通過檢定的案例就收進抽屜)

  3. 巧克力、葡萄酒、咖啡、陽光等,都是曾經是有害的,現在卻變成有益的。壞的變好的,好的變壞的,這是因為最初的研究存在缺陷,這通常是當初研究忽略重要的干擾因素,或者為了尋找值得發表的結論,進而探究資料。操弄 p 值的人,很少有不良企圖,他們通常是真心相信自己的假設

  4. 倖存者偏差 (survivorship bias),是一種認知偏差,其邏輯謬誤表現為過分關注於目前人或物「倖存了某些經歷」然而往往忽略了不在視界內或無法倖存這些事件的人或物。也就是說,我們現在所選擇的研究樣本並回顧過去時,只能看到倖存者

倖存者偏差例子

矯正說明

許多基金的長期績效資料通常只評估目前還存活的基金的歷史資料

忽視失敗、已下檔基金的歷史資料

經商致富者出書介紹自己的成功之道

失敗者是無法出書的,所以我們會誤以為該書介紹的辦法就是成功的途徑

二戰期間,結束轟炸任務的英國皇家空軍 (RAF, Royal Air Force) 戰機,受傷的彈孔多位於機翼與機尾,應加強防護這兩個位置

無法成功返航的都是被攻擊到駕駛艙與油箱位置的戰機,這兩個地方才是最需要加強防護的位置


  1. 為什麼研究人員為了要發表愚蠢理論:① 研究人員需要統計顯著性;② 研究人員真誠相信自己是對的,因此認為忽略反對證據是沒關係的。對於任何理論,只要考察大量資料,並丟棄不支持這種理論的資料,你一定可以收集到支持這個理論的證據

  2. 以 p = 0.05 做為生死分界線,犯了基本的類別謬誤,錯認連續變數為二元變數。新藥有效的證據有多強,基因預測 IQ 的高低、排卵期婦女喜歡共和黨的程度,都是涉及連續變數的問題。而二元變數只有兩種值,真或假、是或非。我們應允許科學家發表不具統計顯著的證據。p 值很弱代表證據不足,但總比沒有好;p 值很強代表證據充足,但無法宣稱效果一定存在。

  3. 波蘭數學家和統計學家 Jerzy Neyman 認為:統計的目的不在於告訴我們該相信什麼,而是告訴我們該做什麼。統計的目的在於做決策,而非回答問題。顯著性檢定只是一個規則,告訴下決策的人要不要批准新藥物、是否採納新的經濟方案、要不要把網站做得更漂亮。

  4. 發現具統計顯著性的實驗結果,不是這項科學歷程的終點,而是另一段旅程的起點。如果發現一項重要的新成果,其他實驗室的科學家會一再測試這個現象及它的變化,想辦法判定這項成果是否只是偶然事件,這就是科學家提到的「再現性」(reproduce)。

2021/09/10

[閱讀筆記] HOW NOT TO BE WRONG - 第8章:歸渺法 (Reductio ad Unlikely)

 

  1. 矛盾證法或歸謬法 (Reductio ad absurdum):首先歸就是順著他的意思,謬就是反駁錯誤的。先布置一個與事實相反的想像世界,讓假的命題 (H) 設定為真,然後看著它在真實世界的壓力中被壓垮,這種論證法已透過時間考驗,甚至可回溯至亞里斯多德時代。

  1. 在統計學,虛無假設的顯著性檢定,可以將其視為歸謬法的模糊版,或許可說是歸渺法 (reductio ad unlikely)。

  1. 顯著性檢定會產生機率值 (p-value, probability value),如果 p-value 很小,說明原假設情況的發生的概率很小,而如果出現了,根據小概率原理 (small probability principle),我們就有理由拒絕原假設,p-value 越小,我們拒絕 H0 的理由越充分。在大家習慣採用 0.05 當作一個臨界,當研究的 p 值小於這個臨界值的時候就宣稱研究結果達到統計顯著,也就是說大家普遍同意接受 5%犯錯的可能性

  2. 「不可能」與「不太可能」是兩件事,不可能代表永遠不會發生,不太可能代表還是可能會發生。


2021/09/09

[閱讀筆記] HOW NOT TO BE WRONG - 第7章:死魚不會讀心 (Dead Fish Don’t Read Minds)

 

  1. 某人出書宣揚不吃玉米可以減肥且解決惱人濕疹問題,假設有數千人閱讀與是行書中的建議。可能上千讀者中,單純因為隨機因素,確實體重變輕且濕疹狀況改善。於是有些讀者會上網發表不吃玉米的成功見證文章,但其他遵循這種飲食法且減肥無成效的人,並沒有上網發表反對意見。

  2. 如上一章節提到的股票經紀人騙術,就像收到連續正確預測股價的廣告信而樂不可支,卻忽視有更多預測失敗的信件被丟進垃圾桶。

  1. 許多科學問題都歸結到「是或非」:某種現象是否會發生?某些新藥是否有效,或毫無作用?「毫無作用」的選項稱為「虛無假設」。換句話說,假設你研究的介入行為沒有任何效用,這種假設就是虛無假設 (null hypothesis)。若虛無假設成立,會讓研究人員徹夜難眠;若無法排除虛無假設,就無法確定是否踏上醫藥突破的路徑,還是摸錯了代謝路徑。研究者誠心希望虛無假設遭揚棄,新藥的效力才能得證。

  2. 所謂的顯著性 (significance) 檢定,並不是在量度重要性。當我們在檢驗一個新藥是否有效,虛無假設是用來斷言新藥沒效,因此排除虛無假設,就是判斷藥物效用不為 0;但是這個效用可能非常小,小到一般非數學相關的人,絕對不會說它具有任何重要性或意義。

  3. p 值問題 (Ref: https://reurl.cc/mqmxLV )

p 值越小表示該研究的結果越好嗎?

  • p 值越小,虛無假設為真實的可能性越低,推翻虛無假設可能犯錯的機會越低,因此宣稱研究有統計顯著差異的肯定程度越高

  •  p 值跟研究所要探討的臨床效果是否重要之間不是絕對的關係。一個 p 值顯著的結果,臨床上的效果卻可能很微小,20%比 21%臨床上只是很微小的差別,但只要研究樣本數夠大,統計檢定就會達到顯著。

樣本數越大,研究的 p 值一定越小嗎?

  • p 值是根據母體真正效果沒有差異的「虛無假設」來計算,所以:

    • 如果母群體真正效果「沒有差異」,研究結果的 p 值將隨機出現在 0 ~ 1 之間,跟樣本數大小沒有關係。

    • 可是只要母群體的真正效果「有差異」,研究結果的 p 值就會隨著研究樣本數增加而越來越小。

結論

  • 當幾個相同題目的類似研究,出現不一致的結果,且沒有特別的理由可以解釋彼此之間的差別時,那麼這些差異就有可能是抽樣誤差所造成。

  • 統合分析 (meta analysis) 透過整合這些研究研究降低抽樣誤差。一個研究有可能因為偶然的機會,結果出現比較小的 p 值,因而造成我們對研究的誤判。可是當好幾個題目相同的類似研究都出現比較小的 p 值時,結果純粹只是因為抽樣隨機出現的可能性就降低了,因此我們對結果判讀的肯定程度就隨著升高。這也就是為什麼一系列結果一致的研究,所提供證據的強度較高的原因。

  • 在母群體有差別的情況下,研究結果可以正確得到統計顯著的機會,稱為統計的“檢定力"(power)。檢定力是正確推翻虛無假說的機率。研究設計的目的之一是希望在可行的範圍內,盡量提高檢力,具體的策略就是設計合理的樣本數來達成


  1. 嚴格來說,虛無假設幾乎總是錯誤的。當你在病人血管注射強效藥劑時,很難說這種藥劑與病人罹患食道癌、血栓症或口臭的機率完全無關,因為身體是複雜的回饋影響與控制系統。你做的每件事,可能會促成癌症或避免癌症。原則上,只要你的實驗設計夠強,就能找出某種情形。但是通常那些效應都極端微小,可以安全地加以忽略。我們看到它們,並不代表真的有影響。

  2. 顯著性檢定只是工具,就像望遠鏡一樣,有些工具比其他工具更為強大。例如,用天文研究等級的望遠鏡看火星,可以看到它的衛星;但是,用一般看風景用的望遠鏡卻看不到。不過,火星的衛星一直在那兒。檢定方法的意義,只是用來告訴我們效應存在,而非斷定效應的大小或重要性

  3. 統計研究如果不夠細緻,以致於無法偵測到預期的現象,就稱為「低鑑別率」(underpowered)。就像你用一般看風景用的望遠鏡來觀察行星,不管行星是否存在,你都看不到,不如不看。高鑑別度的研究,有可能因極不重要的微小效應而讓你嚇壞;低鑑別度研究,又會讓你忽略因為方法太弱而檢測不出的微小效應。

  4. 我們很容易相信好手感與差手感的說法,進行相信手感會影響成功機率。記住,即使在隨機的拋硬幣實驗中,也會出現僅僅來自巧合的、引人注目的連續成功和連續失敗現象。好手感與差手感很可能確實存在,但它的差異比我們想像要小的許多每次投籃與之前沒有關係,只是出現巧合地連續現象優秀的狀態無法確保連續成功,糟糕的狀態也不保證連續失敗;優秀或糟糕的狀態也許僅是運氣而已

  5. 籃球選手在投中三分球後,下一球傾向在更遠的地方投球。換句話說,手感火燙可能「自我抵銷」,也就是當球員自我感覺良好時,自以為手感火燙,因過度自信而投出一些不該投的球。在證券市場也有類似現象,因一時投資獲利,誤以為自己是股神,因過度自信而去追求風險。

  6. 穩定得分的籃球球員,雖然沒有享受到手感火燙期,也沒有慘遭手感冰冷期,但偶爾也會連進五顆三分球。