Total Pageviews

2021/09/18

[閱讀筆記] HOW NOT TO BE WRONG - 第16章:肺癌令你抽菸嗎?(Does Lung Cancer Make You Smoke Cigarettes?)

 

  1.  假設婚姻與抽菸,兩者是負相關

不同說法

強調重點

說明

代表性說法

真實狀況直述句解釋相關

如果你癮君子,就不太會是已婚者

(If you’re a smoker, you’re less likely to be married)

更動說法


假設語氣解釋因果

假設你有抽菸,你就不太會是已婚者

(If you were smoking, you would be less likely to be married)


  1. 相關不蘊涵因果 (correlation does not imply causation),又稱為 相關不代表因果,是科學和統計學經常強調的重要觀念,意思是若兩個事物(統計學上會用變數代表)有明顯的相關時(即當一件事出現,另一件事也出現),不一定表示兩者之間有因果關係。例如說看到死刑判決越多,謀殺犯罪率越高,不代表兩者間有關,尤其不代表死刑導致更多謀殺,有可能是謀殺案件增加導致更多死刑判決,或其他因素同時導致更多謀殺與更多死刑判決。(https://reurl.cc/xGZD2z)

  2. 要確立一個因果關係,其實也是很困難的,因為生物學及醫學的世界太複雜,往往都會有些干擾因子(Confounding factors)去影響你。

  3. 偽因果關係的例子 (https://reurl.cc/mLndO7)

🍦🏊 冰淇淋的銷售量越高,海灘溺水的人數也越多

雪糕銷售與溺水人數表面上看似有關係,其實只不過是因為氣溫越高,越多人買雪糕,同時也越多人游泳,所以溺水的人也越多。但其實這個偽關係是由氣溫高這個「干擾因子」引起的。

🏊⚡ 泳池溺水人數與美國核電廠發電量也是高度相關

這兩者高度相關,並非代表核電廠發電會「導致」人在泳池中溺水,而是因為氣溫高,耗電量大增 → 核電廠發電量增加,去游泳的人也變多 → 泳池溺水的人也多。


  1. 確定性因果關係 (deterministic causality)

因果關係成立條件

如果要得出 X 導致 Y 的結論,下列三個條件都要成立︰

  • ① X 發生在 Y 之前

  • ② 若 X 不發生,則 Y 也不發生

  • ③ 若 X 發生,則 Y 一定發生

分析因果關係的希爾準則 (Bradford Hill's Criteria)


Hill's Criteria

說明

① 時序性

(Temporality)

若 X 導致 Y,那 X 一定發生在 Y 之前。這是 9 個準則中最重要的,若不符合時序性,因果關係可立即被否定

② 強度

(Strength)

即觀察一個事件對另一個事件的影響有多強,但如果病人用 micafungin 後,夜晚排尿由1公升減至100毫升,我們對它們兩者有因果關係的信心自然大得多。

③ 一致性

(Consistency)

即兩件事件的相關性在不同情況之下都會出現,一般在學術界中,如果越多不同的團隊做研究都得多相同的結果,我們覺得這些研究證明的因果關係的可信度是越高的。

④ 劑量反應關係

(Dose-response relation)

即接受的劑量越高,反應也應該越大。

⑤ 可逆性

(Reversibility)

將因子移除會令另一因子發生的程度減低。

⑥ 生物合理性

(Biological plausibility)

即相關是否有一個合理的解釋。如吸煙引起肺癌,我們有一個很合理的解釋,就是煙草中的致癌物質會破壞細胞的DNA,增加基因變異的機會,故引起肺癌。

⑦ 同調性

(Coherence)

沒有與現有的其他理論衝突。

⑧ 類比性

(Analogy)

將某個已知的因果關係,類比至其他相似的關係上,並依此推論其因果關係存在與否。

⑨ 特異性

(Specificity)

一個果只有一個因。因為生物學及醫學上的複雜性,一個果往往都可以又不同的原因促成,例如肝癌可以是由B型肝炎病毒、C型肝炎病毒、喝酒,甚至是發霉的花生所引起的。



  1. 想要檢定來分辨「相關」是來自「因果」,還是與「因果」無關,是一個令人感到抓狂的困難問題,即使你原本以為答案顯而易見,例如肺癌與抽菸的關係,並不單純。1947 年,英國罹患肺癌致死人數,較幾十年前增加 15 倍,當時沒人能指出確切原因,可能是工廠廢氣、汽車廢氣、未能指認出的汙染源、抽菸 (在當時抽菸的流行程度大爆發) 等。

  1. 公共政策制定者不像科學家,他們沒有權利享有不確定性,只能以現有訊息為基礎,做出最好預測並訂下決策。以抽菸導致肺癌為例,此研究結論毫無疑問,科學家與政策制定者會協同合作:科學家估算我們有多少未定數,而政策制定者在標出的不確定下,決定該採取什麼行動。

  2. 🍆 吃茄子有害健康?

假說

  • 假定我們有 75% 確信結論是對的,推動拒吃茄子使每年可以減少 1000 位美國人死亡

  • 然而,我們也有 25% 的機會得到錯誤結論,迫使茄子愛好者去吃其他不健康的食物造成每年多死 200 人的情況

期望值計算

  • 75%1000+25%(-200)=750-50=700

  • 依據期望值,不管茄子商會如何抗議,不管結論是否 100% 正確,就決定向大眾公開,政策制定者建議的期望值是每年可救 700 人。

  • 請記住:期望值並非照字面上那樣,代表我們預期會發生的值,而是當同樣決策反覆不斷執行後,期望發生的平均值。


  1. 假若公共政策制定者自我要求遵守更嚴格的證據標準,只要沒有完全確定是正確的,就拒絕發出任何建議,那麼原本可以拯救的生命就會因此喪失。但有一件事可以確定:用可能會出錯為理由來避免給予建議,會是失敗的策略

2021/09/17

[閱讀筆記] HOW NOT TO BE WRONG - 第15章:高爾頓的橢圓 (Galton’s Ellipse)

 

  1. Francis Galton 的研究已證明,只要研究的的對象受機率的力量影響,平均值迴歸就會起作用。

  2. 散佈圖 (Scatter Diagram / Scatter Plot) 

說明

是品管七大手法之一,用來分析一對參數間之關係,將成對之數據繪製在X-Y圖上,藉此找出兩者間之關係。

常見的幾種散佈圖

Francis Galton 發現身高與遺傳呈現平均值迴歸的現象

由遺傳與機率互相影響的散佈圖,具有一種絕非隨機的幾何形狀,它們看起來或多或少都被圈在一個橢圓形裡面,而中心恰好是親子都剛好是平均值的點。

散佈圖之製作

  • ① 針對想要了解兩者關係的參數﹐收集 50 ~ 100 對數據。

  • ② 繪出 x-y 軸,兩者等長較易於解讀,兩者間若有因果關係,將因至於橫軸,果置於縱軸。

  • ③ 將所收集之數據繪在圖上。

  • ④ 解讀散佈圖。

氣溫與冰淇淋銷量間的關係

可以透過 scatter plot 看出,天氣越炎熱,冰淇淋銷量越好,但關係不是非常完美:

過去 100 年間,sea level 的變化

可以透過 scatter plot 看出,sea level 逐年上升,成正相關

Reference


  1. 真實生活的數據畫出來的散佈圖,通常都會排出粗略的橢圓

2004 年 John Kerry 與 2008 年 Barack Obama 的得票率

每一個點代表一個眾議院選區,這個橢圓明顯瘦長,代表兩者得票率高度相關,這些點明顯的在對角線上,反映出 Obama 得票表現優於 Kerry 的事實 (正相關)。

Google 與 GE (General Electric) 每日股價變化狀態

兩間公司每日股價變化成正相關

SAT 平均分數與 State of North Carolina 州立大學學費間的關係

兩者關係成正相關

2004 年小布希在美國 50 個州的得票率散佈圖

較富裕且自由主義主導的康乃狄克州 (CT) 出現在右下方,共和黨居多且財力有限的愛達荷州 (ID) 出現在左上方。兩者呈現負相關,富裕州偏民主黨,非富裕州偏共和黨,橢圓呈現西北往東南走勢


  1. 《The Triumph of Mediocrity in Business》提出其研究發現,原本具領先優勢的企業,會隨著時間進展,喪失其原本優勢,雖然他們還是優於平均,但整體來說,已不再是特別傑出的一群企業。隨時間進展,企業表現趨於平庸也是平均值迴歸的一種現象,高超的管理與商業眼光固然扮演重要角色,但是運氣大概也有相等的分量

  1. 代數的好處在於容易寫下式子,並打進計算機;幾何的好處在於能把我們的物理直覺與情境連結起來,特別是當你能畫出一幅圖像時。當你有能力用幾何語言講清楚一段數學,就會感覺自己真正搞懂了。

  2. 相關係數計算

題目說明

某財務軟體公司在全國有許多代理商,為研究它的財務軟體產品的廣告投入與銷售額的關係,統計人員隨機選擇10家代理商進行觀察,搜集到年廣告投入費和月平均銷售額的數據,並編製成相關 (https://reurl.cc/xg6G24)

Scatter Plot

透過 scatter plot 可以看出,廣告費投入與銷售額兩者間呈現正相關。

計算過程

  • excel function:CORREL(年廣告費投入資料, 月均銷售額資料), 例如,CORREL(A2:A11, B2:B11)

  • 相關係數 = 0.9942

  • 相關係數 r = 0.9942 > 0.63,廣告投入費與月平均銷售額之間有高度的線性正相關關係

很可能不是碰巧發生的相關性


Sample Size

被視為具有統計顯著性的最小相關性

5

.88

10

.63

15

.51

20

.44

25

.40

30

.38

60

.26

100

.20



  1. 計算喜歡起司與喜歡起司蛋糕間的「相關係數」


  1. 計算結果只能看出是否有相關性,「不是」因果關係。例如,血液濃度的 HDL 與心肌梗塞有關,但是經過研究,服用菸鹼酸來刻意提高 HDL 濃度的受試者,得到心肌梗塞與腦中風的比例與一般人一樣。從測試結果可發現,菸鹼酸可以提高HDL 濃度,高 HDL 濃度能降低心肌梗塞與腦中風的風險,但是,這不代表菸鹼酸能降低心肌梗塞與腦中風的風險。人的身體是極為複雜的系統,我們只能量度其中極少的特徵,更不要說想擺布它。以我們觀察到的相關因素為基礎,會有非常多藥物有可能達到治療效果,但當你將其拿來逐一實驗,大部分都以失敗收場。

  1. 以下是根據 2011/12/15 公共政策民意調查所繪製的圖,圖裡有 1000 個圓點,每一個點代表每個選民,回答的 23 個民調問題,可看出此選民是偏左或偏右,支持歐巴馬、肯定民主黨的選民會偏右邊;喜歡共和黨的選民會偏左。我們會發現,當選民獲得的訊息越多,只是讓原本左右兩邊的人走向更極端,居中人口稀疏地帶更加稀疏。大體來說,未決定的選民之所以未決定,並不是因為他們不受政治教條的偏見影響,客觀且小心提衡量各個候選人的優缺點,而是他們幾乎沒在注意這件事

  1. 數學工具就跟其他科學工具一樣,能偵測到某類現象,卻不能偵測別類現象,正如你的相機沒有能力偵測到伽瑪射線 (或γ射線)。當你知道自然界或社會裡的兩種現象不相關,請把這件事放在心上:這並不意味著兩者毫無關係,只是不存在「相關」的原始設計中,所以無法偵測到那類關係。

2021/09/16

[閱讀筆記] HOW NOT TO BE WRONG - 第14章:平庸會出頭 (The Triumph Of Mediocrity)

 

  1. 👫 Francis Galton 在 1889 年出版的《Natural Inheritance》書中寫道:「不管乍看之下有多難以置信,它卻是理論上必然的事實,同時能從觀察裡清楚得到確認,相較於雙親,成年後代的身材會更加中等。」Galton 發現,身高較矮的父母,他們的子女雖然會偏矮,但並沒有像父母這麼矮;身高較高的父母,他們的子女雖然會偏高,但可能沒有像父母這麼高。

  2. Galton 因此推論,除了身高遺傳,智力成功應該也有類似現象。他的想法與常識經驗吻合,偉大作曲家、科學家、政治領袖的子女,經常在同一領域表現出色,但是很少如父母那麼耀眼。

  3. 🌍 宇宙的運轉,有必然性及隨機性。必然性使人願意努力,隨機性使人對未來充滿盼望。諸如兩次測驗成績以及兩代的各種表現等,常有均值迴歸效應 (regression toward the mean),在智商及遺傳等必然性之外,增添了隨機性 (Ref: https://reurl.cc/Nr1n49)。

  4. 📚 🎵 第一本書就造成轟動的作家、或首發專輯就爆紅的流行樂團,他們的第二本書、第二張專輯,為什麼極少數會如同上一次這麼受歡迎?這並不完全是大多數藝術家僅有一件值得發表的心血結晶,而是因為藝術成就裡混雜了天賦與運氣,就像生活中其他的東西,也逃不過均值迴歸的影響

  5. 🏈 簽下多年高薪肥約的美式足球員,簽約後的下一季,接球後能跑的碼數往往會減少。有人說他們喪失多跑幾碼的金錢誘因,這種心理因素或許有些許影響,但另一個重要因素是,正因為他們當年表現極好,才能獲得肥約;緊接著下一季,因均值迴歸,表現迴歸平均水準。

  6. ⚾ 以 MLB 的歷史資料顯示,平均來說,強打者在下半季的全壘打數,只達上半季的 60%。以 Mickey Tettleton 為例,1993 年上半季打出 24 發全壘打而領先群雄,但下半季只打出 8 發全壘打。不只 Tettleton,整個聯盟的強打者都有類似傾向,這單純就是向平均值迴歸的現象。人的心理對於向平均值迴歸的現象有些抗拒,看似強大的打者,鮮少名副其實地強大

  7. 迴歸是生命體特有的性質,從親代到子代的過程中,迴歸使變異強度減輕,物種得以保持其類型。親代會因子代而迴歸,所以不正常的孩童的父親,子代通常較正常,以減輕雙親不正常的程度。