Total Pageviews

2021/08/15

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十四章 魔球 (Flimsy Theories and Rotten Data)

 第十四章  魔球 (Flimsy Theories and Rotten Data)

棒球迷信/如果你給我一個D,我就會死(die)/糟糕的出生月份/名人堂的死亡之吻

  1.  賽伯計量學 (Sabermetrics):又稱作為棒球統計學,是一項從數據角度分析棒球運動的運動科學。對於棒球活動進行客觀的分析,特別是針對於在棒球比賽時的棒球統計數據做出解釋與評估。這個學門最早源自於比爾·詹姆斯(Bill James)對棒球統計數據所做的一系列分析。

數據分析

說明

打擊率

(AVG, Batting Average)

  • 完全忽略保送、觸身球,無法捕捉打擊者幫助球隊得分的作用

整體攻擊指數

(OPS, On-base Percentage Plus Slugging Percentage)

  • 上壘平均包含安打、保送與觸身球,長打平均分則是對壘打數的統計 (一壘 1 分、二壘 2 分、三壘 3 分、全壘打 4 分)。

  • 整體攻擊指數的計算公式也相當簡單,就是將一名選手的「上壘率」(OBP, On Base Percentage) 和「長打率」(SLG, Slugging Percentage) 相加即可,舉例來說,Ichiro 生涯上壘率 0.355、長打率 0.402、OPS=.355+.402=0.757

  • 一位 OPS 在 0.900 以上的球員,通常代表著這位球員擁有極佳的攻擊能力。在這個數據排行榜的前幾名球員,通常擁有超過 1.000的 OPS。

  • OPS 或許不是完美指標,但容易理解,相較於 AVG 已有長足進步。


  1. 小樣本是否告訴能告訴我們很多資訊,取決於我們如何做抽樣,所做的抽樣是否能代表全部母體,這就是所謂的統計顯著性 (statistical significance)。統計顯著性告訴我們所見是否為事實,而不是偶然發生的。

  2. 當要求進行統計分析時,都會問「樣本數要多少?」這是錯誤的提問,但卻是大多數人會問的的一個問題。為了回答這個問題,你應該了解要衡量什麼以及為什麼要衡量

  3. 我們當想強調與理論相符的資料,忽略與之矛盾的資料,或者將那些與理論相衝突的資料,錯誤解讀成與之相符的資料。那些本應抱持客觀態度的科學家,卻像個普通人,無法看到局外人所能看到的事情。

  4. 在熱切尋找可發表理論的過程中,人們很容易想要微調數據,以便能支持理論。而且,如果統計檢驗給出所預期的答案,人們自然就不想仔細檢驗。如果研究人員在資料搜尋過程搜尋某種模式,然後竄改或刪減不符合此種模式的數據,以便得到具有統計顯著性的結果,你應該對此研究保持警惕。如果統計結論看上去是有問題的,就應檢驗資料。


2021/08/14

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十三章 黑色星期一 (Serious Omission)

 第十三章  黑色星期一 (Serious Omission)

火箭科學/巴斯克維爾的獵犬/五行噩運/花押決定論

  1.  當少數資料與其他資料存在較大差異時,這些資料被稱為異常值 (outlier)。例如,1978/10/19 道瓊工業平均指數下跌 23%,這就是異常值,根據歷史資料,一天變動約 4%。

  2. 異常值有時是筆誤、測量錯誤或意外,若無法得到校正或被忽略,就會扭曲資料。在其他時候,異常值是重要的觀測值,比如臭氧讀數。排除異常值有時會誤導,但是不排除異常值,則幾乎一定會產生誤導

  3. 任何理論都會有數據支持,不管一種理論有多愚蠢,只要丟棄不支持這種愚蠢理論的資料就可。

  1. 為什麼研究人員為了要發表愚蠢理論:① 研究人員需要統計顯著性;② 研究人員真誠相信自己是對的,因此認為忽略反對證據是沒關係的。對於任何理論,只要考察大量資料,並丟棄不支持這種理論的資料,你一定可以收集到支持這個理論的證據

  2. 在研究中遺漏資料的做法,是一個巨大的危險信號。遺漏資料的決定應當基於數據的相關性和品質,而不是數據是否支持或影響研究人員期望或理想的理論

  3. 對讀者來說,應警惕被研究人員放棄的資料,應問問自己:① 被忽略的資料是否是有明顯錯誤的資料;② 被忽略的資料是否是跟理論互相矛盾

2021/08/13

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十二章 終極拖延 (The Ultimate Procrastination)

 第十二章  終極拖延 (The Ultimate Procrastination)

死亡凹陷和尖峰/經過進一步研究/午夜的月餅/漫長的告別

  1.  巧合的人物和日期,只證明我們花了很多時間尋找巧合,無法證明其他事情。一年只有 365 天,美國有幾千位名人,這意味著許多人將死在特別的日子,或者與其他人死在同一天。我們記住「特別」的死亡日期,沒注意到其他死亡日期。Thomas Jefferson 總統於七月四日去世,這一事實不值得我們注意,但它是無可避免的。

  2. Ohio State University 綜合癌症中心統計學家和研究科學家 Donn Yang 曾於《美國醫學協會期刊》寫道:「照顧臨終癌症患者的醫護工作者,總是能回憶起那些緊緊把握生命、排除萬難,度過某個重要節日或活動,並隨後過世的人。」 Donn Yang 建議,如果你愛的人得到絕症,而且某個重要活動即將到來,不要碰運氣,現在就去慶祝

  3. 如果你希望展現的是某件事情導致另一件事,你必須遵循統計研究人員以建立的一些規則。群組設計 (group designs) 有四種基本類型,依據設計是否能為因果關係提供強烈的、中等的、微弱的、完全沒有的證據來分類:

群組設計

說明

非實驗設計

  • 「完全沒有」提供因果關係證據。

  • 此設計通常僅涉及一組人,而統計數據被用來描述母體或展現變數間的某組關係。

前實驗設計

  • 提供「微弱」的因果關係證據,未具備實驗組或控制組的比較。

  • 先給一組人 pretest,然後對他們做些事情,再給他們post-test,看分數是否改變。

準實驗設計

  • 提供「中等」的因果關係證據

  • 基於現實考量,「缺乏隨機分派之要件」,僅具備實驗組和控制組以及前測後時間點的測量,即為準時驗研究設計。

  • 由於分組不是隨機指派,這些群組可能在一些位測量的變數上彼此不相等,而那些可能是我們所找到的任何差異背後真正的原因。

實驗設計

  • 提供「強烈」的因果關係證據。

  • 具備實驗組和控制組、前後測時間點的測量以及隨機分派。例如,藥物研究,其中所有的參與者都是隨機得到要測試的藥物、比較藥物或安慰劑。


  1. 研究結果的有效性考量 (validity concerns):

有效性考量

有效性問題

統計結論有效性

(statistical conclusion validity)

變數間有關係存在嗎?

內部有效性

(internal validity)

這個關係是一種因果關係嗎?

建構有效性

(construct validity)

這個因果關係存在於你相信應受影響的變數間嗎?

外部有效性

(external validity)

這因果關係到處都有且會影響到每個人嗎?


  1. 看上去天馬行空的理論,你應當抱持謹慎的懷疑態度。留意不自然的資料分組,留意研究人員僅提到部分經篩選的統計檢驗。

2021/08/12

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十一章 德州神槍手 (The Texas Sharpshooter)

 第十一章  德州神槍手 (The Texas Sharpshooter)

癌症聚集恐慌

  1.  即使是完全隨機的資料,也會出現資料群集現象。因此,我們沒必要根據這種現象尋找異想天開的解釋。遺憾的是,人們很難抗拒「每一種模式一定有其原因」的想法

  2. 如果你不相信,你可以拋 10 次硬幣,即使每次拋擲都是隨機,你也有 47% 的機率獲得連續四次正面或背面。

  3. 在重複試驗中,隨著試驗次數的增加,事件發生的頻率趨於一個穩定值。大數法則的描述只出現或採樣都是「隨機 (randomly)」 的情況下成立。但這是指最後結果的「相對頻率」,單獨一次的結果絕非如此。最後的結果是趨向平均值,但是在整個過程中會出現許多相同結果或異常狀況

  4. 在賭場時,以下需謹記在心 (Ref: https://reurl.cc/V3gOXb)

  • 我們的交易為時短暫,不適用大數法則 (Law of Large Numbers)。

  • 我們的交易,每一筆都是隨機發生,與先前交易毫無關係。

  • 有些類似結果看似連續發生,其實也都是隨機的。


  1. 大數法則應用 (Ref: Statistics Hacks)

大數法則應用

說明

賭博

若在單一次試驗中,某個事件有一特定的發生機率,當執行無限次的試驗時,出現的比例就會接近那個機率。

誤差

樣本平均與母體平均之間的差異,會隨著樣本大小接近無限大而遞減、靠近零。

影響

樣本所代表的母體中重要的特性之數目會隨著樣本大小變大而遞增,就跟他們估計值的準確度一樣。


  1. 1992 年瑞典有個研究試圖找出高壓電對健康的影響,他們收集了高壓電 300 公尺範圍內所有住戶的樣本長達 25 年,對超過 800 種疾病一一檢查發生率的統計差異。他們發現幼年白血病的發病率是一般人的4倍,還推動政府為此採取行動。然而,當比較超過 800 種疾病時,至少有一種疾病非常可能由於隨機效應而增加發病率。果不其然,後續的研究再也沒有發現電源線和幼年白血病的因果關係。(Ref: https://reurl.cc/v52z7a)

  2. 德州神槍手謬誤 (Texas sharpshooter fallacy),又稱為先射箭再畫靶,是一種因果謬誤,原用以形容流行病學上的集群錯覺,後衍伸泛指將統計上隨機產生的群集獨立出來,宣稱有統計顯著性的謬誤。通俗地講,就是在大量的數據/證據中刻意地挑選出對自己的觀點有利的數據/證據,而將其餘對自己不利的數據/證據棄之不用。(Ref: https://reurl.cc/v52z7a)

  3. 要進行有效的統計檢驗,研究人員應該先畫靶,然後發射子彈。例如,首先論證高壓電塔可能導致癌症的原因,然後比較有高壓電塔與沒有高壓電塔住宅區的癌症發生率。

  1. 在考察資料後,預測資料的形式是很容易且沒意義的。以高壓電引發癌症的錯誤研究為例,在觀測患有血友病的兒童後,又預測兒童白血病的做法是沒有意義的。當人們根據資料發明某種理論,如果理論沒有合理的基礎,又沒有得到新資料的驗證,這是無法讓人信服的。神槍手應僅僅畫出一個目標,而且應該在開槍前就畫靶,而非開槍後。人們發現的解釋需言之有理,且須得到新資料的檢驗


2021/08/11

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十章 如何改運? (Even Steven)

 第十章 如何改運? (Even Steven)

  1. ❌ 錯誤的平均定律:一些人認為,如果拋 1,000 次硬幣,一定是正反面各出現 500 次,若前 100 次出現的正面多於反面,為了平衡結果,接下來出現反面的次數一定多於正面。

  2. 硬幣無法控制自己的落地方式,若是公正硬幣且獲得公正拋擲,不管前面出現什麼結果,正面與反面的出現機率都是 1/2

  3. 股價過去的波動不能用來準確預測未來的走勢,因為股市沒有記憶。(Ref: A Random Walk Down Wall Street)

  4. 許多賭徒急於混亂的隨機結果中找出一種獲利模式,當輪盤連續多次轉出黑色數字時,會有人急著在紅色下注,認為平均定律將發威;也有人繼續在黑色下注,試圖趕上這波黑色運勢。莊家則愉快地接受雙方的賭注,因為莊家知道,未來的結果與過去的結果無關

  5. erlang 分布,又稱無記憶分布 (Ref: Algorithms to Live By)

erlang 分布

說明

  • 已持續的事物對結束不產生影響的事物。

  • 例如,汽車流量、放射性衰變、政治人物任期持續時間、人類拖延的心態 (再五分鐘就好)、成癮賭徒的結束時間 (再賭一次)等。

  • 無論何時發生,都不讓人感到驚訝,任何事件無論已經持續多久、結束的可能性都相等,難怪政客會想要一直選下去。

  • 加法法則是事物持續時間的預測值一定會逐漸加長,加長量是固定的無記憶分布沒有正確的放棄時間,也是賭徒之所以上癮的主因


  1. 各種分布 (Ref: Algorithms to Live By)


  1. 可能是運氣問題,或是身體問題,不管是哪種狀況,連續四次出局的棒球選手,不一定在下一次能打出安打;連續打四次安打的選手,不一定在下次一定出局。如果我們能得到什麼結論的話,連續四次安打的選手很可能比連續四次出局的選手優秀。

  2. 壞運不會提高好運的可能性,反之亦然;每次失敗不會提高未來成功機率,反之亦然。它可能僅是隨機的一種表現而已。

  3. 當你在玩 21 點 (blackjack) 時,是否曾經連續拿了很多手壞牌,使得你增加賭注,認為情勢隨時可能改變,你就陷入賭徒謬誤 (Gambler’s Fallacy),以為連續拿了好幾次壞牌,拿到好牌的機率會增加套用到純粹機率的遊戲上時,會是一連串「獨立事件」,事件間彼此毫無關係,每個個別的結果都與它之前的結果無關,這個事實經常被總結為「骰子沒有記憶」。(Ref: Statistics Hacks)

  4. 想改變運氣,通常需要改變自身的行為。面試一直被拒絕,並不會提高未來錄取機率,相反地,這只是更加證明此人不適合此職缺。我們應當考慮如何表現得更好,或者考慮申請不同工作。

  5. 正負相抵只是一個笑話,不是值得信賴的規律。我們正在經歷壞運時,總會希望能轉運。我們的壞運可能不會持續,但發生在我們身上的壞事,並不會自動提高好事的可能性。


2021/08/10

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第九章 勝者的詛咒 (Regression)

 第九章 勝者的詛咒 (Regression)

回歸平均值/西克理斯特的愚蠢/古老的謬誤何曾消亡?/道瓊指數落榜生/冠軍窒息/尋找學院院長和靈魂伴侶

  1.  回歸平均值 (regression to the mean) 是指「得分遠離平均值的人,在第二次測試中,往往會獲得更加接近平均值的得分現象」。例如,投資成功是對投資者才能的一種不完美測量,因此測驗結果會出現回歸均值的現象,平均看來,在任何一年做出最佳選股的投顧,在第二年都變得更加平庸。

  2. 當老師說,經驗告訴她,批評比讚美更有效時,她不明白的是,這一切都由於回歸均值 (regression to the mean) ,學生的表現本來就是好好壞壞、起起伏伏,但是要記得,當學生的表現優於整體平均時再給讚美。(Ref: Thinking, Fast and Slow)

  3. 當我們在面試應徵者時,也許第二輪面試比第一輪相較之下,沒有令人那麼印象深刻,有可能是應徵者怕我們失望,但更可能是他的第一輪面試超乎尋常的好,應徵者怕其表現回歸均值 (regression to the mean) 。篩選的過程是好的,但是不完美,所以我們應預期會回歸均值 (regression to the mean) ,不應感到驚訝,最優秀的候選人往往不能滿足期望。(Ref: Thinking, Fast and Slow)

  4. 當你是零售連鎖店的經理,若你被要求明年度的業績要成長 10% 時,人會很自然的提出每家分店增加10%銷售量的解決方案。根據回歸均值 (regression to the mean)的概念,其實你該做的規劃是,低績效的分店增加超過 10% 的銷售量,而其他績效較好的分店增加較少的銷售量。(Ref: Thinking, Fast and Slow)

  5. 財務資產通常都有回歸均值 (regression to the means) 的傾向 (Ref: Bogle On Mutual Funds)

財務資產類別

回歸均值說明

普通股 

(common stock)

普通股的績效最終會回歸到長期歷史資料的平均值。因為股票的收益絕大部分是由『殖利率』與『股利』的成長所決定,而這兩個因素的增長,則是基於日益激烈的競爭環境下所掙得的『營收成長』所決定,營收成長是有其極限的

債券 

(bond)

債券的績效由『利率』所決定,無論是長期、中期或是長期的債券,你無法預測利率的未來走向,利率走向會讓你的績效回歸均值


  1. 回歸是雙向的,因為它僅僅反映了「隨機波動」。身高很高的父母,通常子女會矮一點;身高很高的子女,通常父母會矮一些。這種現象不限於身高,回歸均值存在於無法靠觀測準確反映的任何遺傳特性中,包含身高、體重、智力、足部尺碼、頭髮密度等。異常的父母通常擁有不太正常的子女,異常的孩子通常擁有不太異常的父母。

  2. 以調整道瓊工業平均指數 (DJIA, Dow Jones Industrial Average Overview) 成分股為例,1999 年發生四次輪替:Home Depot、Microsoft、Intel、AT&T 取代 Sears、Goodyear、Union Carbide、Chevron。Home Depot、Microsoft、Intel、AT&T 都是偉大的公司,但是接下來十年的表現都很糟糕。

  1. 運動員的表現是對技能的不完美測量,因此它會回歸平均值。回歸是由「表現」相對於「能力」的波動導致,因此遠離均值的表現,反映了更加接近均值的能力。所以,不管我們查看下一年或上一年的成績,都會觀察到棒球選手打擊率的回歸均值現象。

  2. 考慮運氣在運動員成功的表現,起一定的作用,凌駕於其他人之上的選手或團隊,幾乎都受到運氣的幫助,包含身體健康、幸運的反彈球、裁判誤判。但是,好運不會一直持續下去,非凡的成功也是

  3. 當學術能力和運動能力等特點得不到完美測量時,觀測到的表現差異會誇大實際能力差異。表現最優秀的人與平均水準的距離,很可能不像看上去那樣遙遠,表現最糟的人也是如此。因此,他們隨後表現將回歸均值。回歸均值也不是意味能力像均值收斂、大家很快會有平均水準,它只意味著,極端表現在經歷好運和壞運的群體間輪換。回歸均值也不代表成功和不成功的公司會走向令人沮喪的平庸。

  4. 如果你不喜歡在某個重要的高風險考試上得到的分數,你該再考一次嗎?

均值迴歸 (regression toward the mean) 的現象

① 第一次得到最低分的人,第二次得到的分數會變高

② 第一次得到最高分的人,第二次得到的分數會變低

重考的決策準則

說明

① 你的分數

  • 你的分數 < mean,你第二次有很高的機率會得到較高的分數。再試一次,這次你的研讀時間也可能不用花那麼多。

  • 如果你的分數 > mean,只是沒有達到你想要的理想分數,不值得再花時間與精力去考第二次。

② 測驗可靠度

  • 當測驗可靠度 (reliability) 越高,代表機率在決定分數上所扮演的角色就越小

  • 大多數的標準化測驗都會公佈他們的可靠度水平,我們可以將測驗直插入到測量的標準誤 (standard error) 方程式中,大致了解同一個人從測驗到再次測驗之間可能的分數變動。Standard Error=Standard Deviation1-Reliability