2021/08/15

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十四章 魔球 (Flimsy Theories and Rotten Data)

 第十四章  魔球 (Flimsy Theories and Rotten Data)

棒球迷信/如果你給我一個D,我就會死(die)/糟糕的出生月份/名人堂的死亡之吻

  1.  賽伯計量學 (Sabermetrics):又稱作為棒球統計學,是一項從數據角度分析棒球運動的運動科學。對於棒球活動進行客觀的分析,特別是針對於在棒球比賽時的棒球統計數據做出解釋與評估。這個學門最早源自於比爾·詹姆斯(Bill James)對棒球統計數據所做的一系列分析。

數據分析

說明

打擊率

(AVG, Batting Average)

  • 完全忽略保送、觸身球,無法捕捉打擊者幫助球隊得分的作用

整體攻擊指數

(OPS, On-base Percentage Plus Slugging Percentage)

  • 上壘平均包含安打、保送與觸身球,長打平均分則是對壘打數的統計 (一壘 1 分、二壘 2 分、三壘 3 分、全壘打 4 分)。

  • 整體攻擊指數的計算公式也相當簡單,就是將一名選手的「上壘率」(OBP, On Base Percentage) 和「長打率」(SLG, Slugging Percentage) 相加即可,舉例來說,Ichiro 生涯上壘率 0.355、長打率 0.402、OPS=.355+.402=0.757

  • 一位 OPS 在 0.900 以上的球員,通常代表著這位球員擁有極佳的攻擊能力。在這個數據排行榜的前幾名球員,通常擁有超過 1.000的 OPS。

  • OPS 或許不是完美指標,但容易理解,相較於 AVG 已有長足進步。


  1. 小樣本是否告訴能告訴我們很多資訊,取決於我們如何做抽樣,所做的抽樣是否能代表全部母體,這就是所謂的統計顯著性 (statistical significance)。統計顯著性告訴我們所見是否為事實,而不是偶然發生的。

  2. 當要求進行統計分析時,都會問「樣本數要多少?」這是錯誤的提問,但卻是大多數人會問的的一個問題。為了回答這個問題,你應該了解要衡量什麼以及為什麼要衡量

  3. 我們當想強調與理論相符的資料,忽略與之矛盾的資料,或者將那些與理論相衝突的資料,錯誤解讀成與之相符的資料。那些本應抱持客觀態度的科學家,卻像個普通人,無法看到局外人所能看到的事情。

  4. 在熱切尋找可發表理論的過程中,人們很容易想要微調數據,以便能支持理論。而且,如果統計檢驗給出所預期的答案,人們自然就不想仔細檢驗。如果研究人員在資料搜尋過程搜尋某種模式,然後竄改或刪減不符合此種模式的數據,以便得到具有統計顯著性的結果,你應該對此研究保持警惕。如果統計結論看上去是有問題的,就應檢驗資料。


No comments:

Post a Comment