第十一章 德州神槍手 (The Texas Sharpshooter)
癌症聚集恐慌
即使是完全隨機的資料,也會出現資料群集現象。因此,我們沒必要根據這種現象尋找異想天開的解釋。遺憾的是,人們很難抗拒「每一種模式一定有其原因」的想法。
如果你不相信,你可以拋 10 次硬幣,即使每次拋擲都是隨機,你也有 47% 的機率獲得連續四次正面或背面。
在重複試驗中,隨著試驗次數的增加,事件發生的頻率趨於一個穩定值。大數法則的描述只出現或採樣都是「隨機 (randomly)」 的情況下成立。但這是指最後結果的「相對頻率」,單獨一次的結果絕非如此。最後的結果是趨向平均值,但是在整個過程中會出現許多相同結果或異常狀況。
在賭場時,以下需謹記在心 (Ref: https://reurl.cc/V3gOXb)
大數法則應用 (Ref: Statistics Hacks)
1992 年瑞典有個研究試圖找出高壓電對健康的影響,他們收集了高壓電 300 公尺範圍內所有住戶的樣本長達 25 年,對超過 800 種疾病一一檢查發生率的統計差異。他們發現幼年白血病的發病率是一般人的4倍,還推動政府為此採取行動。然而,當比較超過 800 種疾病時,至少有一種疾病非常可能由於隨機效應而增加發病率。果不其然,後續的研究再也沒有發現電源線和幼年白血病的因果關係。(Ref: https://reurl.cc/v52z7a)
德州神槍手謬誤 (Texas sharpshooter fallacy),又稱為先射箭再畫靶,是一種因果謬誤,原用以形容流行病學上的集群錯覺,後衍伸泛指將統計上隨機產生的群集獨立出來,宣稱有統計顯著性的謬誤。通俗地講,就是在大量的數據/證據中刻意地挑選出對自己的觀點有利的數據/證據,而將其餘對自己不利的數據/證據棄之不用。(Ref: https://reurl.cc/v52z7a)
要進行有效的統計檢驗,研究人員應該先畫靶,然後發射子彈。例如,首先論證高壓電塔可能導致癌症的原因,然後比較有高壓電塔與沒有高壓電塔住宅區的癌症發生率。
在考察資料後,預測資料的形式是很容易且沒意義的。以高壓電引發癌症的錯誤研究為例,在觀測患有血友病的兒童後,又預測兒童白血病的做法是沒有意義的。當人們根據資料發明某種理論,如果理論沒有合理的基礎,又沒有得到新資料的驗證,這是無法讓人信服的。神槍手應僅僅畫出一個目標,而且應該在開槍前就畫靶,而非開槍後。人們發現的解釋需言之有理,且須得到新資料的檢驗。
No comments:
Post a Comment