2021/08/08

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第七章 辛普森悖論 (Cofound it!)

 第七章 辛普森悖論 (Cofound it!)

某人的悖論/我要再來一杯咖啡

  1.  辛普森悖論 (Simpson’s paradox)

辛普森悖論說明

  • 班傑明·狄斯累利(Benjamin Disraeli)是十九世紀的英國文學家、政治家,曾經兩次擔任英國首相,他認為:「世上有三種謊言,就是:謊言,天大的謊言,與統計數字。」Simpson's paradox (辛普森詭論)提出一個論點,「即使分組比較都佔優勢的一方,也會在總評中是居於劣勢的一方。

  • 發現干擾因素不是件容易的事情,我們應當留意是否存在可能改變結論的干擾因素

以加州大學柏克萊分校研究院遭指控錄取有性別歧視為例

  • 以整體來看,男性錄取人數遠高於女性

  • 將資料拆解,將前六大科系所錄取性別拆開比較,群體數據中的模式遭到逆轉,這裡的干擾因素是,某些系所的錄取率遠高於其他系所。第一個系所擁有 64% 總錄取率,第六個系所擁有 6% 錄取率;男生喜歡申請錄取率較高的系所 (ex. 1, 2),女生則恰恰相反。這樣的申請傾向,就會導致男性錄取人數較多;女性的總體錄取率之所以偏低,是因為她們喜歡申請錄取率較低的系所。

🏥 以醫院選擇為例

  • 以整體死亡率來看,A 醫院優於 B 醫院

  • 若將患者分成重症與輕症,B 醫院在重症與輕症的存活率都優於 A 醫院


  1. 更多辛普森悖論的例子

Examples

說明

✈️ 阿拉斯加航空公司擁有優於另一家航空公司準點飛行紀錄,整體卻不如競爭對手

阿拉斯加航空公司擁有許多飛往 Seattle 的航班,常因當地天氣問題導致班機延誤。

👵 瑞典女性死亡率低於哥斯大黎加,但瑞典擁有較高的女性整體死亡率

因瑞典擁有更多的老年女性,老年人擁有較高的死亡率。

🏥 一項醫療手術對小型與大型腎結石的治療成功率,皆高於另一種術式,但整體成功率卻低於另一種術式

因為此一醫療手術常被用於治療大型腎結石,大型腎結石的成功率本來就較低。


  1. 生日悖論:一群人中,至少有兩個人生日相同機率有多高?雖然還要視人數多少而定,但這機率卻出乎意料地高。只要人數在 23 人以上,就有高於 50% 的機率。(Ref: Statistics Hacks: Tips & Tools for Measuring the World and Beating the Odds)

假設

  1. 假設生日在人口中是均勻分布相同的 (uniformly distributed),表示一年中每一天出生的人數大致相同。

  2. 雖然有四年一次的閏年發生,但是 2/29 出生的人很少,可忽略。

全機率法則 (Law of Total Probability)

此問題有兩個互斥 (mutually exclusive) 的可能結果:

① 至少有兩個人的生日相同

② 沒有人的生日相同


有時候,判斷一件事情不發生的機率,會比較容易

你可以發現,當群組大小增加越多,相同生日的機率快速上升:

  • 假設只有兩個人,兩位生日都不相同的機率是:364365=0.997,相同機率 = 1-0.997=0.003

  • 人數增加到三人,不相同機率:364365363365=0.992,相同機率=1-0.992=0.008 (機率增加 2.7 倍)

  • 人數增加到 10 人,不相同機率=364365363365362365361365360365359365358365357365356365355365=0.883,相同機率 = 1-0.883=0.117 (機率增加 39 倍)

  • 人數增加到 23 個人,不相同機率是 0.462,相同機率高達 0.538 (你的勝率大概一半)

  • 人數增加到 30 個人,不相同機率是 0.3,相同機率高達 0.7 (你的勝率高達七成!)

  • 人數增加到 50 個人,不相同機率是 0.03,相同機率高達 0.97 (你的勝率高達 97%!)


  1. 研究人員為什麼改變想法?巧克力、葡萄酒、咖啡、陽光等,都是曾經是有害的,現在卻變成有益的。壞的變好的,好的變壞的,這是因為最初的研究存在缺陷,這通常是當初研究忽略重要的干擾因素,或者為了尋找值得發表的結論,進而探究資料。

  2. 由於潛在的自我選擇偏誤和干擾因素,觀測性研究有它的挑戰性。對於利用資料發現理論的研究,應時時警惕,並用新資料加以檢驗理論。


No comments:

Post a Comment