Total Pageviews

2021/08/09

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第八章 狀態火熱的雷.艾倫 (When You’re Hot, You’re Not)

 第八章 狀態火熱的雷.艾倫 (When You’re Hot, You’re Not)

小數定律/一項籃球研究/小華特.威廉姆斯/投擲馬蹄鐵/保齡球

  1.  我們常根據一種重複出現的模式,然後再編造符合此種模式的理論。如果 Curry 連續多次三分球投籃得分,一定是因為他的狀況絕佳,命中率才提升;若連續多次失手,一定是他的狀況不好,命中率才下降。其實,每次投籃與之前沒有關係,只是出現巧合地連續現象優秀的狀態無法確保連續成功,糟糕的狀態也不保證連續失敗;優秀或糟糕的狀態也許僅是運氣而已

  2. 在你指責賭場詐賭,要對賭場提出法律訴訟前,你要先區分大概是隨機發生的哪些看似不隨機的狀況(看起來隨機 ≠ 真的是隨機),以及實際上真的不是隨機發生的那些看似不隨機的狀況(看起來不隨機 ≠ 真的不隨機)。第二種結果看似不可能,但是因硬幣沒有記憶,每次機率都是 ½ 。這就是看似不隨機,但實際卻是隨機的例子。(Ref: Statistics Hacks: Tips & Tools for Measuring the World and Beating the Odds)

硬幣翻轉結果

機率

① 人頭、數字、人頭、人頭、數字

1212121212=132=.03125

② 數字、數字、數字、數字、數字

1212121212=132=.03125

③ 人頭、人頭、數字、數字、數字

1212121212=132=.03125

④ 人頭、人頭、人頭、人頭、數字

1212121212=132=.03125


組合 (combination)

排列 (permutation)

  • 從某個母體隨機抽取時,最終會產生一個特定數目的值總共會有幾種方式。

  • 例如,硬幣翻轉結果理論上是由 50% 人頭和 50% 數字所構成的無限大母體所抽取的樣本。

  • 給定數目的一組元素能被安排的方法數。換句話說,它們是確切序列的數目。

  • 例如,上表中的翻轉結果,每 32 次會發生 1 次。

  • 如何計算翻轉五次硬幣的組合數:值的數目翻轉次數=25=32

  • 計算從一個母體抽出特定數目的元素,並得到某個特定抽取結果(如,三個人頭)的方法數:n!r!(n-r)!

    • n: 抽取次數或元素的數目,例如,翻轉硬幣五次

    • r: 感興趣的特定抽取結果,例如三個人頭

  • 翻轉五次拿到三個人頭的方法數為:5!3!(5-3)!=1206(2!)=12012=10,代表你有1032的時間,翻轉一個硬幣五次,會得到三個人頭


  1. 硬幣出現順序的機率與結果機率 (Ref: Statistics Hacks: Tips & Tools for Measuring the World and Beating the Odds)

順序

此順序的機率

結果

結果機率

人頭數字人頭人頭數字

125=.03125

三個人頭

方法數=5!3!(5-3)!=1206(2!)=12012=10

結果機率=1032=.3125

數字數字數字數字數字

五個數字

方法數=5!5!(5-5)!=120120)=1

結果機率=132=.03125

人頭人頭數字數字數字

三個數字

方法數=5!3!(5-3)!=1206(2!)=12012=10

結果機率=1032=.3125

人頭人頭人頭人頭數字

四個人頭

方法數=5!4!(5-4)!=12024=5

結果機率=532=.15625


  1. 判斷是否為隨機的條件 (Ref: Statistics Hacks: Tips & Tools for Measuring the World and Beating the Odds)

Criteria

  • 知道特定組合(非排序)的機率;

  • 要對抗心理傾向,預期偶然的結果不會產生某種可是別的模式

  • 設下標準指出一個事件必須多不可能,我們才需要去質疑資料

  • 一個事件必須多罕見,你才會認為他不是偶然發生嗎?科學家設下的一個標準是 5%。如果研究結論指出只有 5% 或更少的時間會出現的一個結果,它通常會被認為是顯著的 (significant),並且大概就會是機遇之外有某些正在產生影響的證據(例如,五個數字一直出現,就是有鬼)


  1. 賭徒謬誤 (Gambler’s Fallacy):不管是什麼遊戲,如果涉及金錢與機率,有一些基本的博弈原則可以幫助快樂的統計學家保持愉快。賭博的世界瀰漫著神秘、迷信和數學的混論,對這些機率遊戲多認識一點,能幫你度過難關。

賭徒謬誤 (Gambler’s Fallacy)

  • 是一個直覺但是錯誤的信仰體系,使許多原本消息靈通的玩家付出代價。

  • 當你在玩 21 點 (blackjack) 時,是否曾經連續拿了很多手壞牌,使得你增加賭注,認為情勢隨時可能改變,你就陷入賭徒謬誤 (Gambler’s Fallacy),以為連續拿了好幾次壞牌,拿到好牌的機率會增加

  • 套用到純粹機率的遊戲上時,會是一連串「獨立事件」,事件間彼此毫無關係,每個個別的結果都與它之前的結果無關,這個事實經常被總結為「骰子沒有記憶」。

  • 與賭徒謬誤相仿的信念範例包含

    • 一段時間未開出的吃角子老虎機就快吐錢了。

    • 一整晚都拿到爛牌的玩家很快就會拿到一手超級好牌扳平。

    • 過去三場比賽都輸球的球隊,更有可能在第四場贏球。

    • 輪盤上已經連續八次落在紅色數字上的球,接下來幾乎可確定會落在黑色數字上。

  • 請不惜一切代價避免上述謬誤,這樣你賭輸的錢應該會少一些

賭場和金錢

  • 在機率遊戲中,公平的回饋 (fair payout) 是長期來說,會使兩邊的參與者 (即賭場及賭客),達到收支平衡的支付金。

  • 賭場能賺錢的第一個原因是,莊家優勢。以美式輪盤遊戲 (roulette) 來說,共有38個號碼,18 個紅色、18 個黑色與 2 個綠色,這讓莊家有高於公平回饋 2/38 (5.26%) 的莊家優勢。一般來說,賭場用此方式盈利並不公平,但這也是賭徒與賭場的社會契約的一部分。

  • 賭場能賺錢的第二個原因,是因為賭徒口袋並非無限深,也沒有無限長的時間可賭博。賭場的優勢 (ex. 輪盤上的 5.26%),是指如果一個玩家下注無限次,賭場能拿走的金額。這個無限玩家會贏一陣子,輸一陣子,然後在任何時間點,平均來說,會輸掉其起始資金的 5.26%。不過實際狀況時,大多數玩家不繼續玩的原因,通常時沒錢的時候。大多數玩家都是在有錢的時候持續下注,然後沒錢的時候停止下注。

  • 以上兩個原因,讓賭博遊戲對賭場而言是有利可圖的,不是與特定遊戲關聯的機率,而是人類的行為:玩家持續玩的傾向

  • 這個 hack 給賭徒的一般建議是,過了特定一段時間後就走人,不管你是贏錢或輸錢。如果你夠幸運,在你時間用盡之前,就贏了很多錢,請考慮離開賭場

投注系統 (betting systems)

  • 典型的投注系統會建議你在一次損失後增加你的賭注,不過也有系統則建議你在贏一次後增加你的賭注。這些系統都假設連勝或連被總是比較可能結束而非繼續,這都犯了賭徒謬誤。若是下注金額必須增加,直到玩家贏了為止,長期來說,口袋大小有限定律 (law of finite pocket size) 會破壞系統,因為持續加倍賭注會很快吃光你的初始資金

  • 輸了就加倍系統

輸的次數

押注大小

總支出

1

$5

$5

2

$10

$15

3

$20

$35

4

$40

$75

5

$60

$135

6

$120

$315



  1. 我們老是低估巧合在生活中有多普遍,沒意識到隨機性會產生看似有意義、實則毫無意義的模式。對無法解釋的事情做出解釋,這種說法常誘使我們相信。

  2. 不要以為電腦很聰明,其實它很笨。電腦只會按照你要求工作;如果你要它們做錯誤的事情,它們就會照做並給你錯誤的結果。

  3. 我們喜好在資料中尋找模式,並為其編造理由,這是無法避免的事情。因此,我們很容易相信好手感與差手感的說法,進行相信手感會影響成功機率。記住,即使在隨機的拋硬幣實驗中,也會出現僅僅來自巧合的、引人注目的連續成功和連續失敗現象。好手感與差手感很可能確實存在,但它的差異比我們想像要小的許多


2021/08/08

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第七章 辛普森悖論 (Cofound it!)

 第七章 辛普森悖論 (Cofound it!)

某人的悖論/我要再來一杯咖啡

  1.  辛普森悖論 (Simpson’s paradox)

辛普森悖論說明

  • 班傑明·狄斯累利(Benjamin Disraeli)是十九世紀的英國文學家、政治家,曾經兩次擔任英國首相,他認為:「世上有三種謊言,就是:謊言,天大的謊言,與統計數字。」Simpson's paradox (辛普森詭論)提出一個論點,「即使分組比較都佔優勢的一方,也會在總評中是居於劣勢的一方。

  • 發現干擾因素不是件容易的事情,我們應當留意是否存在可能改變結論的干擾因素

以加州大學柏克萊分校研究院遭指控錄取有性別歧視為例

  • 以整體來看,男性錄取人數遠高於女性

  • 將資料拆解,將前六大科系所錄取性別拆開比較,群體數據中的模式遭到逆轉,這裡的干擾因素是,某些系所的錄取率遠高於其他系所。第一個系所擁有 64% 總錄取率,第六個系所擁有 6% 錄取率;男生喜歡申請錄取率較高的系所 (ex. 1, 2),女生則恰恰相反。這樣的申請傾向,就會導致男性錄取人數較多;女性的總體錄取率之所以偏低,是因為她們喜歡申請錄取率較低的系所。

🏥 以醫院選擇為例

  • 以整體死亡率來看,A 醫院優於 B 醫院

  • 若將患者分成重症與輕症,B 醫院在重症與輕症的存活率都優於 A 醫院


  1. 更多辛普森悖論的例子

Examples

說明

✈️ 阿拉斯加航空公司擁有優於另一家航空公司準點飛行紀錄,整體卻不如競爭對手

阿拉斯加航空公司擁有許多飛往 Seattle 的航班,常因當地天氣問題導致班機延誤。

👵 瑞典女性死亡率低於哥斯大黎加,但瑞典擁有較高的女性整體死亡率

因瑞典擁有更多的老年女性,老年人擁有較高的死亡率。

🏥 一項醫療手術對小型與大型腎結石的治療成功率,皆高於另一種術式,但整體成功率卻低於另一種術式

因為此一醫療手術常被用於治療大型腎結石,大型腎結石的成功率本來就較低。


  1. 生日悖論:一群人中,至少有兩個人生日相同機率有多高?雖然還要視人數多少而定,但這機率卻出乎意料地高。只要人數在 23 人以上,就有高於 50% 的機率。(Ref: Statistics Hacks: Tips & Tools for Measuring the World and Beating the Odds)

假設

  1. 假設生日在人口中是均勻分布相同的 (uniformly distributed),表示一年中每一天出生的人數大致相同。

  2. 雖然有四年一次的閏年發生,但是 2/29 出生的人很少,可忽略。

全機率法則 (Law of Total Probability)

此問題有兩個互斥 (mutually exclusive) 的可能結果:

① 至少有兩個人的生日相同

② 沒有人的生日相同


有時候,判斷一件事情不發生的機率,會比較容易

你可以發現,當群組大小增加越多,相同生日的機率快速上升:

  • 假設只有兩個人,兩位生日都不相同的機率是:364365=0.997,相同機率 = 1-0.997=0.003

  • 人數增加到三人,不相同機率:364365363365=0.992,相同機率=1-0.992=0.008 (機率增加 2.7 倍)

  • 人數增加到 10 人,不相同機率=364365363365362365361365360365359365358365357365356365355365=0.883,相同機率 = 1-0.883=0.117 (機率增加 39 倍)

  • 人數增加到 23 個人,不相同機率是 0.462,相同機率高達 0.538 (你的勝率大概一半)

  • 人數增加到 30 個人,不相同機率是 0.3,相同機率高達 0.7 (你的勝率高達七成!)

  • 人數增加到 50 個人,不相同機率是 0.03,相同機率高達 0.97 (你的勝率高達 97%!)


  1. 研究人員為什麼改變想法?巧克力、葡萄酒、咖啡、陽光等,都是曾經是有害的,現在卻變成有益的。壞的變好的,好的變壞的,這是因為最初的研究存在缺陷,這通常是當初研究忽略重要的干擾因素,或者為了尋找值得發表的結論,進而探究資料。

  2. 由於潛在的自我選擇偏誤和干擾因素,觀測性研究有它的挑戰性。對於利用資料發現理論的研究,應時時警惕,並用新資料加以檢驗理論。