Total Pageviews

2021/08/12

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十一章 德州神槍手 (The Texas Sharpshooter)

 第十一章  德州神槍手 (The Texas Sharpshooter)

癌症聚集恐慌

  1.  即使是完全隨機的資料,也會出現資料群集現象。因此,我們沒必要根據這種現象尋找異想天開的解釋。遺憾的是,人們很難抗拒「每一種模式一定有其原因」的想法

  2. 如果你不相信,你可以拋 10 次硬幣,即使每次拋擲都是隨機,你也有 47% 的機率獲得連續四次正面或背面。

  3. 在重複試驗中,隨著試驗次數的增加,事件發生的頻率趨於一個穩定值。大數法則的描述只出現或採樣都是「隨機 (randomly)」 的情況下成立。但這是指最後結果的「相對頻率」,單獨一次的結果絕非如此。最後的結果是趨向平均值,但是在整個過程中會出現許多相同結果或異常狀況

  4. 在賭場時,以下需謹記在心 (Ref: https://reurl.cc/V3gOXb)

  • 我們的交易為時短暫,不適用大數法則 (Law of Large Numbers)。

  • 我們的交易,每一筆都是隨機發生,與先前交易毫無關係。

  • 有些類似結果看似連續發生,其實也都是隨機的。


  1. 大數法則應用 (Ref: Statistics Hacks)

大數法則應用

說明

賭博

若在單一次試驗中,某個事件有一特定的發生機率,當執行無限次的試驗時,出現的比例就會接近那個機率。

誤差

樣本平均與母體平均之間的差異,會隨著樣本大小接近無限大而遞減、靠近零。

影響

樣本所代表的母體中重要的特性之數目會隨著樣本大小變大而遞增,就跟他們估計值的準確度一樣。


  1. 1992 年瑞典有個研究試圖找出高壓電對健康的影響,他們收集了高壓電 300 公尺範圍內所有住戶的樣本長達 25 年,對超過 800 種疾病一一檢查發生率的統計差異。他們發現幼年白血病的發病率是一般人的4倍,還推動政府為此採取行動。然而,當比較超過 800 種疾病時,至少有一種疾病非常可能由於隨機效應而增加發病率。果不其然,後續的研究再也沒有發現電源線和幼年白血病的因果關係。(Ref: https://reurl.cc/v52z7a)

  2. 德州神槍手謬誤 (Texas sharpshooter fallacy),又稱為先射箭再畫靶,是一種因果謬誤,原用以形容流行病學上的集群錯覺,後衍伸泛指將統計上隨機產生的群集獨立出來,宣稱有統計顯著性的謬誤。通俗地講,就是在大量的數據/證據中刻意地挑選出對自己的觀點有利的數據/證據,而將其餘對自己不利的數據/證據棄之不用。(Ref: https://reurl.cc/v52z7a)

  3. 要進行有效的統計檢驗,研究人員應該先畫靶,然後發射子彈。例如,首先論證高壓電塔可能導致癌症的原因,然後比較有高壓電塔與沒有高壓電塔住宅區的癌症發生率。

  1. 在考察資料後,預測資料的形式是很容易且沒意義的。以高壓電引發癌症的錯誤研究為例,在觀測患有血友病的兒童後,又預測兒童白血病的做法是沒有意義的。當人們根據資料發明某種理論,如果理論沒有合理的基礎,又沒有得到新資料的驗證,這是無法讓人信服的。神槍手應僅僅畫出一個目標,而且應該在開槍前就畫靶,而非開槍後。人們發現的解釋需言之有理,且須得到新資料的檢驗


No comments: