albert's blog: Statistics

Showing posts with label Statistics. Show all posts

2021/08/15

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十四章魔球 (Flimsy Theories and Rotten Data)

第十四章魔球 (Flimsy Theories and Rotten Data)

棒球迷信／如果你給我一個D，我就會死（die）／糟糕的出生月份／名人堂的死亡之吻

賽伯計量學 (Sabermetrics)：又稱作為棒球統計學，是一項從數據角度分析棒球運動的運動科學。對於棒球活動進行客觀的分析，特別是針對於在棒球比賽時的棒球統計數據做出解釋與評估。這個學門最早源自於比爾·詹姆斯（Bill James）對棒球統計數據所做的一系列分析。

數據分析

說明

打擊率

(AVG, Batting Average)

完全忽略保送、觸身球，無法捕捉打擊者幫助球隊得分的作用。

整體攻擊指數

(OPS, On-base Percentage Plus Slugging Percentage)

上壘平均包含安打、保送與觸身球，長打平均分則是對壘打數的統計 (一壘 1 分、二壘 2 分、三壘 3 分、全壘打 4 分)。
整體攻擊指數的計算公式也相當簡單，就是將一名選手的「上壘率」(OBP, On Base Percentage) 和「長打率」(SLG, Slugging Percentage) 相加即可，舉例來說，Ichiro 生涯上壘率 0.355、長打率 0.402、OPS=.355+.402=0.757
一位 OPS 在 0.900 以上的球員，通常代表著這位球員擁有極佳的攻擊能力。在這個數據排行榜的前幾名球員，通常擁有超過 1.000的 OPS。
OPS 或許不是完美指標，但容易理解，相較於 AVG 已有長足進步。

小樣本是否告訴能告訴我們很多資訊，取決於我們如何做抽樣，所做的抽樣是否能代表全部母體，這就是所謂的統計顯著性 (statistical significance)。統計顯著性告訴我們所見是否為事實，而不是偶然發生的。
當要求進行統計分析時，都會問「樣本數要多少？」這是錯誤的提問，但卻是大多數人會問的的一個問題。為了回答這個問題，你應該了解要衡量什麼以及為什麼要衡量。
我們當想強調與理論相符的資料，忽略與之矛盾的資料，或者將那些與理論相衝突的資料，錯誤解讀成與之相符的資料。那些本應抱持客觀態度的科學家，卻像個普通人，無法看到局外人所能看到的事情。
在熱切尋找可發表理論的過程中，人們很容易想要微調數據，以便能支持理論。而且，如果統計檢驗給出所預期的答案，人們自然就不想仔細檢驗。如果研究人員在資料搜尋過程搜尋某種模式，然後竄改或刪減不符合此種模式的數據，以便得到具有統計顯著性的結果，你應該對此研究保持警惕。如果統計結論看上去是有問題的，就應檢驗資料。

2021/08/14

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十三章黑色星期一 (Serious Omission)

第十三章黑色星期一 (Serious Omission)

火箭科學／巴斯克維爾的獵犬／五行噩運／花押決定論

當少數資料與其他資料存在較大差異時，這些資料被稱為異常值 (outlier)。例如，1978/10/19 道瓊工業平均指數下跌 23%，這就是異常值，根據歷史資料，一天變動約 4%。
異常值有時是筆誤、測量錯誤或意外，若無法得到校正或被忽略，就會扭曲資料。在其他時候，異常值是重要的觀測值，比如臭氧讀數。排除異常值有時會誤導，但是不排除異常值，則幾乎一定會產生誤導。
任何理論都會有數據支持，不管一種理論有多愚蠢，只要丟棄不支持這種愚蠢理論的資料就可。

為什麼研究人員為了要發表愚蠢理論：① 研究人員需要統計顯著性；② 研究人員真誠相信自己是對的，因此認為忽略反對證據是沒關係的。對於任何理論，只要考察大量資料，並丟棄不支持這種理論的資料，你一定可以收集到支持這個理論的證據。
在研究中遺漏資料的做法，是一個巨大的危險信號。遺漏資料的決定應當基於數據的相關性和品質，而不是數據是否支持或影響研究人員期望或理想的理論。
對讀者來說，應警惕被研究人員放棄的資料，應問問自己：① 被忽略的資料是否是有明顯錯誤的資料；② 被忽略的資料是否是跟理論互相矛盾。

2021/08/13

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十二章終極拖延 (The Ultimate Procrastination)

第十二章終極拖延 (The Ultimate Procrastination)

死亡凹陷和尖峰／經過進一步研究／午夜的月餅／漫長的告別

巧合的人物和日期，只證明我們花了很多時間尋找巧合，無法證明其他事情。一年只有 365 天，美國有幾千位名人，這意味著許多人將死在特別的日子，或者與其他人死在同一天。我們記住「特別」的死亡日期，沒注意到其他死亡日期。Thomas Jefferson 總統於七月四日去世，這一事實不值得我們注意，但它是無可避免的。
Ohio State University 綜合癌症中心統計學家和研究科學家 Donn Yang 曾於《美國醫學協會期刊》寫道：「照顧臨終癌症患者的醫護工作者，總是能回憶起那些緊緊把握生命、排除萬難，度過某個重要節日或活動，並隨後過世的人。」 Donn Yang 建議，如果你愛的人得到絕症，而且某個重要活動即將到來，不要碰運氣，現在就去慶祝。
如果你希望展現的是某件事情導致另一件事，你必須遵循統計研究人員以建立的一些規則。群組設計 (group designs) 有四種基本類型，依據設計是否能為因果關係提供強烈的、中等的、微弱的、完全沒有的證據來分類：

群組設計	說明
非實驗設計	「完全沒有」提供因果關係證據。此設計通常僅涉及一組人，而統計數據被用來描述母體或展現變數間的某組關係。
前實驗設計	提供「微弱」的因果關係證據，未具備實驗組或控制組的比較。先給一組人 pretest，然後對他們做些事情，再給他們post-test，看分數是否改變。
準實驗設計	提供「中等」的因果關係證據基於現實考量，「缺乏隨機分派之要件」，僅具備實驗組和控制組以及前測後時間點的測量，即為準時驗研究設計。由於分組不是隨機指派，這些群組可能在一些位測量的變數上彼此不相等，而那些可能是我們所找到的任何差異背後真正的原因。
實驗設計	提供「強烈」的因果關係證據。具備實驗組和控制組、前後測時間點的測量以及隨機分派。例如，藥物研究，其中所有的參與者都是隨機得到要測試的藥物、比較藥物或安慰劑。

研究結果的有效性考量 (validity concerns)：

有效性考量	有效性問題
統計結論有效性 (statistical conclusion validity)	變數間有關係存在嗎？
內部有效性 (internal validity)	這個關係是一種因果關係嗎？
建構有效性 (construct validity)	這個因果關係存在於你相信應受影響的變數間嗎？
外部有效性 (external validity)	這因果關係到處都有且會影響到每個人嗎？

看上去天馬行空的理論，你應當抱持謹慎的懷疑態度。留意不自然的資料分組，留意研究人員僅提到部分經篩選的統計檢驗。

2021/08/12

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十一章德州神槍手 (The Texas Sharpshooter)

第十一章德州神槍手 (The Texas Sharpshooter)

癌症聚集恐慌

即使是完全隨機的資料，也會出現資料群集現象。因此，我們沒必要根據這種現象尋找異想天開的解釋。遺憾的是，人們很難抗拒「每一種模式一定有其原因」的想法。
如果你不相信，你可以拋 10 次硬幣，即使每次拋擲都是隨機，你也有 47% 的機率獲得連續四次正面或背面。
在重複試驗中，隨著試驗次數的增加，事件發生的頻率趨於一個穩定值。大數法則的描述只出現或採樣都是「隨機 (randomly)」的情況下成立。但這是指最後結果的「相對頻率」，單獨一次的結果絕非如此。最後的結果是趨向平均值，但是在整個過程中會出現許多相同結果或異常狀況。
在賭場時，以下需謹記在心 (Ref: https://reurl.cc/V3gOXb)

我們的交易為時短暫，不適用大數法則 (Law of Large Numbers)。
我們的交易，每一筆都是隨機發生，與先前交易毫無關係。
有些類似結果看似連續發生，其實也都是隨機的。

大數法則應用 (Ref: Statistics Hacks)

大數法則應用	說明
賭博	若在單一次試驗中，某個事件有一特定的發生機率，當執行無限次的試驗時，出現的比例就會接近那個機率。
誤差	樣本平均與母體平均之間的差異，會隨著樣本大小接近無限大而遞減、靠近零。
影響	樣本所代表的母體中重要的特性之數目會隨著樣本大小變大而遞增，就跟他們估計值的準確度一樣。

1992 年瑞典有個研究試圖找出高壓電對健康的影響，他們收集了高壓電 300 公尺範圍內所有住戶的樣本長達 25 年，對超過 800 種疾病一一檢查發生率的統計差異。他們發現幼年白血病的發病率是一般人的4倍，還推動政府為此採取行動。然而，當比較超過 800 種疾病時，至少有一種疾病非常可能由於隨機效應而增加發病率。果不其然，後續的研究再也沒有發現電源線和幼年白血病的因果關係。(Ref: https://reurl.cc/v52z7a)
德州神槍手謬誤 (Texas sharpshooter fallacy)，又稱為先射箭再畫靶，是一種因果謬誤，原用以形容流行病學上的集群錯覺，後衍伸泛指將統計上隨機產生的群集獨立出來，宣稱有統計顯著性的謬誤。通俗地講，就是在大量的數據/證據中刻意地挑選出對自己的觀點有利的數據/證據，而將其餘對自己不利的數據/證據棄之不用。(Ref: https://reurl.cc/v52z7a)
要進行有效的統計檢驗，研究人員應該先畫靶，然後發射子彈。例如，首先論證高壓電塔可能導致癌症的原因，然後比較有高壓電塔與沒有高壓電塔住宅區的癌症發生率。

在考察資料後，預測資料的形式是很容易且沒意義的。以高壓電引發癌症的錯誤研究為例，在觀測患有血友病的兒童後，又預測兒童白血病的做法是沒有意義的。當人們根據資料發明某種理論，如果理論沒有合理的基礎，又沒有得到新資料的驗證，這是無法讓人信服的。神槍手應僅僅畫出一個目標，而且應該在開槍前就畫靶，而非開槍後。人們發現的解釋需言之有理，且須得到新資料的檢驗。

2021/08/11

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十章如何改運？ (Even Steven)

第十章如何改運？ (Even Steven)

❌ 錯誤的平均定律：一些人認為，如果拋 1,000 次硬幣，一定是正反面各出現 500 次，若前 100 次出現的正面多於反面，為了平衡結果，接下來出現反面的次數一定多於正面。
硬幣無法控制自己的落地方式，若是公正硬幣且獲得公正拋擲，不管前面出現什麼結果，正面與反面的出現機率都是 1/2。
股價過去的波動不能用來準確預測未來的走勢，因為股市沒有記憶。(Ref: A Random Walk Down Wall Street)
許多賭徒急於混亂的隨機結果中找出一種獲利模式，當輪盤連續多次轉出黑色數字時，會有人急著在紅色下注，認為平均定律將發威；也有人繼續在黑色下注，試圖趕上這波黑色運勢。莊家則愉快地接受雙方的賭注，因為莊家知道，未來的結果與過去的結果無關。
erlang 分布，又稱無記憶分布 (Ref: Algorithms to Live By)

erlang 分布

說明

已持續的事物對結束不產生影響的事物。

例如，汽車流量、放射性衰變、政治人物任期持續時間、人類拖延的心態 (再五分鐘就好)、成癮賭徒的結束時間 (再賭一次)等。

無論何時發生，都不讓人感到驚訝，任何事件無論已經持續多久、結束的可能性都相等，難怪政客會想要一直選下去。

加法法則是事物持續時間的預測值一定會逐漸加長，加長量是固定的。無記憶分布沒有正確的放棄時間，也是賭徒之所以上癮的主因。

各種分布 (Ref: Algorithms to Live By)

可能是運氣問題，或是身體問題，不管是哪種狀況，連續四次出局的棒球選手，不一定在下一次能打出安打；連續打四次安打的選手，不一定在下次一定出局。如果我們能得到什麼結論的話，連續四次安打的選手很可能比連續四次出局的選手優秀。
壞運不會提高好運的可能性，反之亦然；每次失敗不會提高未來成功機率，反之亦然。它可能僅是隨機的一種表現而已。
當你在玩 21 點 (blackjack) 時，是否曾經連續拿了很多手壞牌，使得你增加賭注，認為情勢隨時可能改變，你就陷入賭徒謬誤 (Gambler’s Fallacy)，以為連續拿了好幾次壞牌，拿到好牌的機率會增加。套用到純粹機率的遊戲上時，會是一連串「獨立事件」，事件間彼此毫無關係，每個個別的結果都與它之前的結果無關，這個事實經常被總結為「骰子沒有記憶」。(Ref: Statistics Hacks)
想改變運氣，通常需要改變自身的行為。面試一直被拒絕，並不會提高未來錄取機率，相反地，這只是更加證明此人不適合此職缺。我們應當考慮如何表現得更好，或者考慮申請不同工作。
正負相抵只是一個笑話，不是值得信賴的規律。我們正在經歷壞運時，總會希望能轉運。我們的壞運可能不會持續，但發生在我們身上的壞事，並不會自動提高好事的可能性。

2021/08/10

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第九章勝者的詛咒 (Regression)

第九章勝者的詛咒 (Regression)

回歸平均值／西克理斯特的愚蠢／古老的謬誤何曾消亡？／道瓊指數落榜生／冠軍窒息／尋找學院院長和靈魂伴侶

回歸平均值 (regression to the mean) 是指「得分遠離平均值的人，在第二次測試中，往往會獲得更加接近平均值的得分現象」。例如，投資成功是對投資者才能的一種不完美測量，因此測驗結果會出現回歸均值的現象，平均看來，在任何一年做出最佳選股的投顧，在第二年都變得更加平庸。
當老師說，經驗告訴她，批評比讚美更有效時，她不明白的是，這一切都由於回歸均值 (regression to the mean) ，學生的表現本來就是好好壞壞、起起伏伏，但是要記得，當學生的表現優於整體平均時再給讚美。(Ref: Thinking, Fast and Slow)
當我們在面試應徵者時，也許第二輪面試比第一輪相較之下，沒有令人那麼印象深刻，有可能是應徵者怕我們失望，但更可能是他的第一輪面試超乎尋常的好，應徵者怕其表現回歸均值 (regression to the mean) 。篩選的過程是好的，但是不完美，所以我們應預期會回歸均值 (regression to the mean) ，不應感到驚訝，最優秀的候選人往往不能滿足期望。(Ref: Thinking, Fast and Slow)
當你是零售連鎖店的經理，若你被要求明年度的業績要成長 10% 時，人會很自然的提出每家分店增加10％銷售量的解決方案。根據回歸均值 (regression to the mean)的概念，其實你該做的規劃是，低績效的分店增加超過 10％的銷售量，而其他績效較好的分店增加較少的銷售量。(Ref: Thinking, Fast and Slow)
財務資產通常都有回歸均值 (regression to the means) 的傾向 (Ref: Bogle On Mutual Funds)

財務資產類別

回歸均值說明

普通股

(common stock)

普通股的績效最終會回歸到長期歷史資料的平均值。因為股票的收益絕大部分是由『殖利率』與『股利』的成長所決定，而這兩個因素的增長，則是基於日益激烈的競爭環境下所掙得的『營收成長』所決定，營收成長是有其極限的。

債券

(bond)

債券的績效由『利率』所決定，無論是長期、中期或是長期的債券，你無法預測利率的未來走向，利率走向會讓你的績效回歸均值。

回歸是雙向的，因為它僅僅反映了「隨機波動」。身高很高的父母，通常子女會矮一點；身高很高的子女，通常父母會矮一些。這種現象不限於身高，回歸均值存在於無法靠觀測準確反映的任何遺傳特性中，包含身高、體重、智力、足部尺碼、頭髮密度等。異常的父母通常擁有不太正常的子女，異常的孩子通常擁有不太異常的父母。
以調整道瓊工業平均指數 (DJIA, Dow Jones Industrial Average Overview) 成分股為例，1999 年發生四次輪替：Home Depot、Microsoft、Intel、AT&T 取代 Sears、Goodyear、Union Carbide、Chevron。Home Depot、Microsoft、Intel、AT&T 都是偉大的公司，但是接下來十年的表現都很糟糕。

運動員的表現是對技能的不完美測量，因此它會回歸平均值。回歸是由「表現」相對於「能力」的波動導致，因此遠離均值的表現，反映了更加接近均值的能力。所以，不管我們查看下一年或上一年的成績，都會觀察到棒球選手打擊率的回歸均值現象。
考慮運氣在運動員成功的表現，起一定的作用，凌駕於其他人之上的選手或團隊，幾乎都受到運氣的幫助，包含身體健康、幸運的反彈球、裁判誤判。但是，好運不會一直持續下去，非凡的成功也是。
當學術能力和運動能力等特點得不到完美測量時，觀測到的表現差異會誇大實際能力差異。表現最優秀的人與平均水準的距離，很可能不像看上去那樣遙遠，表現最糟的人也是如此。因此，他們隨後表現將回歸均值。回歸均值也不是意味能力像均值收斂、大家很快會有平均水準，它只意味著，極端表現在經歷好運和壞運的群體間輪換。回歸均值也不代表成功和不成功的公司會走向令人沮喪的平庸。
如果你不喜歡在某個重要的高風險考試上得到的分數，你該再考一次嗎？

均值迴歸 (regression toward the mean) 的現象
① 第一次得到最低分的人，第二次得到的分數會變高
② 第一次得到最高分的人，第二次得到的分數會變低

重考的決策準則	說明
① 你的分數	你的分數 < mean，你第二次有很高的機率會得到較高的分數。再試一次，這次你的研讀時間也可能不用花那麼多。如果你的分數 > mean，只是沒有達到你想要的理想分數，不值得再花時間與精力去考第二次。
② 測驗可靠度	當測驗可靠度 (reliability) 越高，代表機率在決定分數上所扮演的角色就越小。大多數的標準化測驗都會公佈他們的可靠度水平，我們可以將測驗直插入到測量的標準誤 (standard error) 方程式中，大致了解同一個人從測驗到再次測驗之間可能的分數變動。Standard Error=Standard Deviation1-Reliability

Total Pageviews

2021/08/15

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十四章 魔球 (Flimsy Theories and Rotten Data)

2021/08/14

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十三章 黑色星期一 (Serious Omission)