Total Pageviews

2021/05/04

[閱讀筆記] Statistics Hacks (4/6)

 

  1. 【Hack #23】See the Shape of Everything (看見每樣東西的形狀):自然世界中,幾乎所有東西都是以相同的方式分佈。只要你能進行測量,不管那是什麼,而且分數也能變動的話,它就會有定義良好的常態分布 (normal distribution)。如果你知道這種常態曲線的形狀之具體細節,你就能對表現結果做出非常準確的預測。

雖然常態曲線理論上是無限寬,但兩邊的三個標準差 (standard deviations) 就足以涵蓋所有分數 (一個標準差就是每個分數與平均數的平均距離 [Hack #2])。舉例來說,具有高學術標準的大學可能會要求能力測驗分數必須是平均數之上的一個標準差,如此就能確保自己只接受能力在前 15.8% (13.6+2.1 +0.1) 的人



  1. 【Hack #24】Produce Percentiles (產生百分位數):了解測驗表現的一個簡單但強大的方式是透過百分等級 (percentile ranks) 的使用。這裡將說明如何把只有一點解説價值的原始分數,變換為含有更多資訊且實用的東西。假設你有某個班級小考 30 個樣本分數,並計算累計次數與累計百分比如下:

分數

次數

累計次數

百分比

累計百分比

59

1

1

3.33%

3.33%

65

1

2

3.33%

6.67%

72

1

3

3.33%

10.00%

75

3

6

10.00%

20.00%

80

1

7

3.33%

23.33%

83

2

9

6.67%

30.00%

85

6

15

20.00%

50.00%

86

4

19

13.33%

63.33%

88

3

22

10.00%

73.33%

90

5

27

16.67%

90.00%

92

1

28

3.33%

93.33%

94

1

29

3.33%

96.67%

97

1

30

3.33%

100.00%

  • 分數 94 分,大約在第 96 百分位數;85 分的百分等級是 50。

  • 如果你被告知你的百分等級是 93,代表有 93% 的人分數比你低,也可以說只有 7% 的人得分跟你一樣或更高。

  • 也可把百分等級想成「分數離正常有多遠」,這意味著百分等級通常都在第 50 百分位數附近,而且分數如果是常態分配的話,第 93 百分位數距離平均數相當遠。

  • 百分等級只在你要找的是常模參照 (norm-referenced scoring) 解讀時,才會有用處;如果你要知道你是否已精通一組關鍵技能,知道有多少百分比的人精通哪些技能,這就沒有幫助,你要改用標準參照分數 (criterion-referenced score),在這種情況下,分數的正確百分比 (percent correct) 會比較有意義,而非百分等級 (percentile rank)。


  1. 【Hack #25】Predict the Future with the Normal Curve (以常態曲線預測未來):因為我們在自然世界中測量的所有東西幾乎都有一種已知的分布形狀,也就「常態曲線 (normal curve)」,我們可以使用這種分布的確切細節來預測未來,並回答各種機率問題:

常見的機率問題

① 你的分數會落在任兩個給定分數間的機率有多少?

② 有多少人的分數會落在指定兩個分數間?

③ 你通過下個測驗的機率有多少?

④ 你會被 Harvard 錄取嗎?

⑤ 美國有多少百分比的學生符合 National Merit Scholars 的資格?

常態曲線是由一個分布 (distribution) 的平均數 (mean) 和標準差 (standard deviation) 所定義,而這種曲線的形狀永遠相同。常態曲線底下的區域 (經簡化僅列出重要的 z 分數),用以展示常見有多常見,稀少有多罕見:

z 分數

mean 和 z 之間

分數的比例

在較大區域中的

分數比例

在較小區域中的

分數比例

.00

.00

.50

.50

.12

.05

.55

.45

.25

.10

.60

.40

.39

.15

.65

.35

.52

.20

.70

.30

.67

.25

.75

.25

.84

.30

.80

.20

1.04

.35

.85

.15

1.28

.40

.90

.10

1.65

(90% CI)

.45

.95

.05

1.96

(95% CI)

.475

.975

.025

4.00

(涵蓋最後 5% 的分佈)

.50

1.00

.00

欄位

說明

z 分數

  • 分數與平均分數的距離,以標準差為單位來表達,就是 z score。

  • 如果 z score = 1.04,代表一個分數與平均數的距離,稍微大於一個標準差。

  • 相關係數 (correlations) 和比例 (proportions) 都可以被轉換為 z score,這個表就可被用來將那些值與 0 或彼此做比較

mean 和 z 之間分數的比例

  • 一個隨機分數會落在平均數與任何 z 所定義的區域中的機率

在較大區域中的分數比例

  • 用來描述任何給定的 z 和 z 為 4.00 (曲線末端) 之間的區域,理論上,這曲線不會真的結束,但 4.00 的 z score 將會非常接近涵蓋了 100% 的分數

  • 一個隨機的人所產生的分數,會落在哪個區域中的機率

在較小區域中的分數比例

  • z 和曲線最接近那端之間的區域,他是會落在那個空間中的分數比例


  1. 【Hack #26】Give Raw Scores a Makeover (妝點原始分數):測驗的原始分數 (raw scores) 具備的意義很少,但只要將其轉換為 z score,你就會無法置信那一個小小的超級數字裡竟然能塞下那麼多資訊。

方程式

z=raw score - meanstandard deviation

  • z scores 的範圍通常介於 -3 ~ 3,因為分數的常態分佈一般只有六個標準差這麼寬。

z score 的代表意義

說明

正數

raw score > mean

負數

raw score < mean

0

raw score = mean

有三位學生參加 ACT 考試,官方公布平均數 18 分,標準差 6 分

學生

ACT score

formula

Z score

說明

Zack

14

14-186=-46

-.67

分數低於平均

Taylor

18

18-186=06

0.00

表現平均

Issaac

24

24-186=66

1.00

表現最好,在平均數一個標準差位置

  • Taylor 有 50% 的機率得到 0.00 或更好的 z score

  • 要得到 1.00 或更好的 z score 只有 15.8% 的機率 (13.6 + 2.1 + 0.1),所以 Issac 與其他考生比起來,表現良好


  1. 【Hack #27】Standardize Scores (標準化分數):SAT 或 ACT 或智力測驗,都不會回報你的 raw scores。在測驗報告中,都會用標準化分數,讓你了解你與參加相同測驗的其他考生,相較之下的表現。一但你了解「標準化」(standardized) 的分數,你就能自行計算他們,甚至能自己發明。

z scores 難以說明之處

可能是負值

全部的 z scores 有一半是負值,你很難說服參加考試的人,負分並非壞消息

0 分代表平均分數

我們很難說服父母,大考平均分數是 0 代表你子女的表現中規中矩

3 分是最高分

100 名考生只有 1 會得到 3 分 z scores,但是如果為了拿到微不足道的 3 分,事前準備感覺變得好苦

T 分數:T=z(10)+50

學生

ACT score

score

T scores 

Zack

14

-.67

-.6710+50=43.3

Taylor

18

0.00

0.0010+50=50

Issaac

24

1.00

110+50=60

  • 好的老師或學校諮商人員會解釋 T score 的範圍是 20 ~ 80,而 50 是平均值

  • T score 常被用在某些測驗報告上,做為 z score 的替代品,而且分數不會是負數,平均數也是看起來比較好的 50


常見的標準化分數分布

測驗名稱

典型的分數範圍

平均數

標準差

z score

-3.00 ~ 3.00

0

1

T score

20 ~ 80

50

10

ACT (American College Test)

1 ~ 36

18

6

SAT

200 ~ 800

500

100

GRE (Graduate Record Exam)

200 ~ 800

500

100

GMAT (Graduate Management Admission Test)

200 ~ 800

500

100

LSAT (Law School Admission Test)

120 ~ 180

150

10

MCAT (Medical College Admission Test)

1 ~ 15

8

2.5

IQ Test (Wechsler Intelligence Scales)

55 ~ 145

100

15

IQ Test (Stanford-Binet Intelligence Scales)

52 ~ 148

100

16

因為測驗分數是常態分布,想要解讀這其中任何的分數。你可以把分數放到常態曲線上比對,看看你的表現是平均、不尋常的低、或異常的高。


  1. 設計評分系統和建立測驗時,你有兩種可挑選的思想體系

思想體系

說明

常模參照評分

(Norm-referenced scoring)

驅動它的哲學基礎是:要了解在某項任務上的表現(例如參加 ACT),一個人的表現水平應該與其他人的表現做比較

標準參照評分

(Criterion-referenced scoring)

依據一組 criteria 來評估表現,例如知識庫、技能組、教學目標、或診斷特性


  1. 【Hack #28】Ask the Right Questions (詢問對的問題):如果你是任課老師、工作面試官、或處在想要測量某人理解程度的任何情境下,你有各式各樣的方式詢問問題。這裡有源自測量科學的一些工具,能讓你以對的方式問出正確問題。

許多專業人士必須問好的問題或寫好的測驗

老師在課堂上透過詢問學生問題,以評估學生理解程度

老師會撰寫問題以評估研習會的有效性

HR 會發展標準問題以測量求職者的技能


Hack #28 solution

說明

① 如何建構好問題

  • 就快速且有效衡量知識的題目格式而言,很少有東西可以勝過多選 (multiple-choice) 題目

  • 多選題目的撰寫準則

    • 3 ~ 5 個答題選項;

    • 選項不要有「以上皆是」 (all of the above);

    • 選項不要有「以上皆非」(none of the above);

    • 讓所有答題選項看起來都很合理,如此誘答選項 (distractors) 才有效;

    • 以邏輯或隨機的順序還列選項,例如從最短到最長、字母順序、時間先後等;

    • 讓 stem (題幹或稱為題目) 比答題選項還長;

    • 不要使用否定措辭;

    • 讓答題選項和題幹在文法上一致,例如若題目的文法清楚表明正確答案是一名女性或複數,確保所有答題選項都是一名女性或複數;

    • 題幹請使用完整句子,以利閱讀。

② 應該問些什麼

  • 有些問題很容易,只評估一個人回想資訊的能力,代表很低的知識水平;

  • 有些問題很困難,所需的答案必須結合現有知識或將其應用到新的問題或情況。

  • 正確的問題必須在對的層次提出 (ex. 參考下方 Bloom’s taxonomy),才能從中獲得有用的資訊。


不同認知層次的問題 (低到高)

Bloom 層次

說明

問題範例

① 知識

(knowledage)

  • 回想字詞、事實和概念的能力

  • 只需要背誦的記憶能力,以及回想、辨識和覆述之類的技能

誰寫了大亨小傳

A. Faulkner

B. Fitzgerald

C. Hemingway

D. Steinbeck

② 理解

(comprehension)

  • 了解與溝通一個主題的能力

  • 需要改述 (paraphrasing)、總結和解釋之類的技能

什麼是熱點分享 (hotspot)

③ 應用

(application)

  • 使用推廣泛化的知識解決不熟悉問題的能力

  • 需要進行操作和解決問題之類的技能,並包括像是使用、計算和產生這類的字詞

如果一位農民擁有 40 英畝土地,他又買了 16 英畝,他有多少畝地?

④ 分析

(analysis)

  • 將一個概念拆解為組成部分並了解它們關係的能力

  • 需要像是概述、傾聽、邏輯和觀察等技能,並使用例如識別和分解之類的字詞

描繪出你家附近的地圖,並識別出每戶人家

⑤ 合成

(synthesis)

  • 從現有知識創造出新模式或新概念的能力

  • 需要組織和設計等技能,並包括比較和對比等字眼

根據你對該劇角色的了解,請描述 Flowers for Algernon 的續集中可能發生什麼事

⑥ 評估

(evaluation)

  • 對新想法的價值作出明智判斷的能力

  • 需要像是批評或形成意見的技能,並包括支持和解釋之類的字詞

哪部歌劇電影的表演者可能是最好的運動員?請捍衛你的答案

  • 每當要評估隱藏在某人腦中的知識時,請先想想你要評估什麼水平的理解。基本的知識記憶足夠嗎?若是,那麼「知識層級」就是問題的適當層次。

  • 你想要知道你職缺的應徵者有能力使用他的知識來解決他從未遇過的問題嗎?那就是在「應用層次」詢問問題,他就必須展現那種能力。


  1. 【Hack #29】Test Fairly (公正的測驗):課堂教師經常會利用測驗來測量學生的學習成果,他們常會擔心測驗是否太難或太容易,以及是否測量了該測量的東西。試題分析工具 (item analysis tools) 為教師的疑慮提供了解決方案。測驗開發者有興趣的是題目是否難易適中以及題目的有效性 (是否測量該測量的東西)

常見問題

解法

說明

我的測驗題目太難嗎?

困難指數 (difficulty index)

不要被名稱誤導,它是度量題目有多 easy,指數越高越容易

有測驗到他該測量的嗎?

鑑別指數 (discrimination index)

辨別一個題目在整體考試上鑑別高分者與低分者的能力

為何我的學生會答錯這題?

答題選項分析

(analysis of answer options)

改善題目的效果,也能辨識出哪些誘答選項 (distractors) 行得通,對不知道正確解答的學生特別有吸引力


大亨小傳的作者是誰 (答題學生數共 25 人)  困難指數=答對的人數參加考試的人數

選項

選擇人數

困難指數 (difficulty index)

A. Faulkner

4

425=.16

B. Fitzgerald

16

1625=.64

C. Hemingway

5

525=.20

D. Steinbeck

0

025=.00

  • 困難指數的範圍從 .00 ~ 1.00。若老師覺得 .64 太低,他可以採取幾個行動

    • 調整教學方式,以更好地符合該題目所代表的目標

    • 可能是題目太令人混淆或無效,可以取代或修改這個題目


鑑別度 (discrimination index) 是指試題能區別受試者能力高低的程度,採內部一致性的方式,將受試者依總分高低排列序,取極端的25% 為高低分組,然後求出高分組與低分組在每一個試題的答對率。

  • 難易度=(高分組答對率+低分組答對率)2 (0≦難易度≦1)

  • 鑑別度=高分組答對率-低分組答對率(-1≦鑑別度≦1 ,鑑別度以0.25以上為標準,高於0.4為優良試題

如果有75人接受數學測驗,高、低分組分別有18人、12人答對某一個題目。

高分群答對率

1818+12=.6

低分群答對率

1218+12=.4

難易度

.6+.42=.5

鑑別度

.6-.4=.2


大亨小傳的作者是誰 (答題學生數共 25 人)  - 試題分析

選項

選項熱門度

困難指數

說明

A. Faulkner

4

425=.16


B. Fitzgerald

16

1625=.64

越多人答對代表越簡單

C. Hemingway

5

525=.20


D. Steinbeck

0

025=.00

誘答選項 (distractors) 沒發揮作用,使得猜測變得更有可能,傷害這個題目的有效性


  1. 試題分析與測驗公正性的建議

測驗公正性的建議

說明

改變教學方式

  • 如果題目太難,可調整教學方式,調整答錯率高的教材解說內容,或使用不同的教學策略

改變測驗方式

  • 移除低鑑別值 (discrimination values) 的題目 

  • 修改沒人選的誘答選項,並建立新的誘答選項

  • 看似合理的誘答選項越多,測驗通常會更準確、有效與可靠

改變打成績方式

  • 若有些題目在課堂上沒教到,為公平起見,採送分處理。


  1. 【Hack #30】Improve Your Test Score While Watching Paint Dry (在等油漆乾的空檔改善你的測驗分數):如果你不喜歡在某個重要的高風險考試上得到的分數,你該再考一次嗎?

均值迴歸 (regression toward the mean) 的現象

① 第一次得到最低分的人,第二次得到的分數會變高

② 第一次得到最高分的人,第二次得到的分數會變低

重考的決策準則

說明

① 你的分數

  • 你的分數 < mean,你第二次有很高的機率會得到較高的分數。再試一次,這次你的研讀時間也可能不用花那麼多。

  • 如果你的分數 > mean,只是沒有達到你想要的理想分數,不值得再花時間與精力去考第二次。

② 測驗可靠度

  • 當測驗可靠度 (reliability) 越高,代表機率再決定分數上所扮演的角色就越小

  • 大多數的標準化測驗都會公佈他們的可靠度水平,我們可以將測驗直插入到測量的標準誤 (standard error) 方程式中,大致了解同一個人從測驗到再次測驗之間可能的分數變動。

Standard Error=Standard Deviation1-Reliability

標準差 vs. 標準誤

比較

說明

標準差

(standard deviation)

  • 用來描述資料的分散程度

標準誤

(standard error of the mean)

n

  • 是我們藉著手邊的樣本資料,對母群體平均值做估計時,對這個估計結果誤差程度的表示方法

  • 樣本越大,誤差越小


  1. 【Hack #31】Establish Reliability (確立可靠性):使用、製作和參加高風險考試的人們都會對確立測驗分數的準確度有濃厚的興趣。幸運的是,教育與心理測量領域為「驗證測驗分數是一致且精確的」以及「表達它有多可信」兩件事提供了數種方法。

四種可靠性

說明

① 內部可靠性

(internal reliability)

  • 在單一測驗中,每個受試者跨不同題目的表現是否一致?

  • 例如,如果受訪者表示同意“我喜歡騎自行車”和“我過去喜歡騎自行車”的說法,而不同意“我討厭自行車”的說法,則表明內部一致性很好的測試。

  • alpha=nn-1SD2-SDi2SD2

    • n = 測驗中題目數量

    • SD = 測驗的標準差

    • =加總

    • SDi= 每個題目的標準差

② 測驗與再測可靠性

(test-retest reliability)

  • 每位受測者跨越兩次分開舉行的相同考試表現是否一致?

③ 跨評分員的可靠性

(inter-rater reliability)

  • 若由兩個不同的人來為測驗評分,每位受試者的表現是否一致?

  • 排除主觀成分的評分,例如作文題、表現評鑑等

④ 並列形式的可靠性

(parallel forms reliability)

  • 每位受試者跨越不同形式的相同測驗,表現是否一致?

  • 無論一個人所參加的測驗是何種形式,他的得分大智慧相同。展示並列形式只在測驗是從一個較大的題庫建構出來的時候,才是必須的

  • 大多數標準化大學入學考試來,例如 SAT 與 ACT,不同受試者會拿到不同版本的測驗,就涵蓋相同主題的不同問題所構成,其必須證明這些測驗有同等難度,而且還有其他類似的統計特性。

可靠性的目的用來確立一個測驗所產生的分數是否不包含太多的隨機變異

解讀可靠性證據

說明

① 內部可靠性

(internal reliability)

  • 設計用作為重要決策的唯一憑據的測驗,應具備極高的內部可靠性

  • alpha係數 .70

② 測驗與再測可靠性

(test-retest reliability)

  • 用來測量隨著時間變化的測驗,如同各種社會科學的研究設計,應展示良好的測驗與再測可靠性,意味著測驗間的任何改變都不是出自於分數的隨機波動

  • 測驗隨著時間產生的分數相關性介於 .60 ~ 1.00 的範圍內

③ 跨評分員的可靠性

(inter-rater reliability)

  • 只有在評分有主觀成分存在時,才會講究跨評分員的可靠性,例如論文寫作的考題。

  • 如果跨評分員的相關性被用作跨評分員可靠性的估計值,依據經驗法則,.80 就是可靠性的最低要求

④ 並列形式的可靠性

(parallel forms reliability)

  • 適用於從題庫產生的測驗。一般來說,一個測驗的兩種形式間的相關性應高於 .90

  • 在測驗公司所進行的研究中,同一組人會參加兩種形式的同一個測驗,已決定這個可靠性係數。


  1. 【Hack #32】Establish Validity (確立有效性):一個有效的測驗,是指有測量到它該要測量的東西。若要人相信一個測驗分數所具備的意義是它應該代表的,那麼確立有效性 (validity) 就很重要。要說服你自己和其他人,你的測驗是有效的,你就得提供特定類型的證據。測量或調查的有效性並不是在工具本身,而是在結果的解讀,例如數學測驗不會是有效的拼字測驗,但會是有效的數學測驗。最常被接受的有效性證據,是理論上最薄弱的表面有效性 (face validilty),因為他只仰賴人類的判斷,例如,以拼字測驗來說,如果受試者被要求拼寫單字,就確立了表面有效性。

較科學的有效性論證

說明

① 基於內容的論證

(content-based arguments)

  • 測驗中的題目能充分代表可能出現在這類測驗中的那些題目嗎?

  • 如果一個測驗必須涵蓋某個定義明確的知識領域,那麼問題作為樣本,對於該領域有代表性嗎?

  • 以拼字測驗來說,如果你能證明學生被要求拼寫的字詞足以代表學生應該要能夠拼的寫字詞庫,你就提供了 content-based arguments

② 基於標準的論證

(criterion-based arguments)

  • 這個測驗分數可用來估計在其他測驗上的表現嗎?

  • 這裡所謂的表現 (performance) 是指可以代表在某項任務的成功、測驗分數、其他人的評價等

③ 基於構念的論證

(construct-based arguments)

  • 這個測驗分數能代表你希望測量的特徵或特性嗎?

  • 拼字測驗可能會探討拼字能力 (spelling ability) 作為一項認知活動或人格特徵或某種其他定義明確之實體的本質。如果你能定義談到拼字能力是,你的是什麼,並展示你測驗分數之行為正如你所定義所預期的,你就能主張 construct-based arguments

  • 例如透過相關係數,指出厲害的閱讀者就是較佳的拼字員

④ 基於結果的論證

(consequences-based arguments)

  • 參加測驗的人有從這個經驗受益嗎?

  • 這個測驗對特定族群有偏差嗎?

  • 參加這個測驗所導致的壓力否大到不管你得幾分都不值嗎?

  • 如果你的拼字能力測驗,預期性別、種族或社經地位都不會造成差異,那麼族群間的拼寫分數應該相等才是

  • 想要展示有效性,不需要全部符合上述四種,例如,歷史小考,只要符合 content-based arguments

  • 高風險測驗,例如 ACT, SAT, GRE 等,就應該具備上述四種類型的有效性證據加以支持


  1. 【Hack #33】Predict the Length of a Lifetime (預測生命週期的長度):我們之中有許多人都直覺地相信,已經存在很久的東西,很有可能會繼續存在很久,而不是這樣的東西,就不會如此。這種直觀推斷形式化之後的結果,就是 Gott’s Principle (高斯原則),而它的數學並不困難。但是,Gott’s Principle 不適用於精密計算資料已存在的狀況,例如人類壽命長度已經有很多精密資料可用,Gott’s Principle (高斯原則) 在此沒什麼用

Gott’s Principle 之下的信賴水平

信賴水平

最小的 tfuture

最大的 tfuture

50%

tpast3

3tpast

60%

tpast4

4tpast

95%

tpast39

39tpast

  • tpast 代表該物已存在多久

  • tfuture 代表預期會繼續存在多久

Gott’s Principle 之下的 60% 信賴水平 (本書撰寫年份為 2005)

音樂作品

發表年份

tpast (年)

min tfuture

max tfuture

Bach 

1705 年

2005-1705=300

3004=75 (年)

4300=1200 (年)

Britney Spears

1999 年

2005-1999=6

64=1.5 (年)

46=24 (年)

對於快速估算而言,60% 已是不錯的信賴水平,他不只是比平均還好的機率,而且 ¼ 和 4 這些係數也很容易使用

以 O’Reilly Media 為例,創立於 1978 年,本書撰寫時間點是 2005 年 7 月,tpast=2005-1978=27,這間公司可能的存活時間

CI

最小的 tfuture

最大的 tfuture

50%

273=9 年(~2014 年 7 月)

327=81 年 (~2068 年 7 月)

60%

274=6 年 9 個月(~2012年 4 月)

427=108 年 (~2113 年 7 月)

95%

2739=8 個月(~2006年 3 月)

3927=1053 年 (~3058 年 7 月)


  1. 【Hack #34】Make Wise Medical Decisions (做出明智的醫療抉擇):醫療檢驗提供診斷用的篩選資訊,但病人經常會理解錯誤,有時甚至醫生也會。了解稱作「敏感度 (sensitivity)」和「特異性 (specificity)」的機率特徵能提供更為準確且 (有的時候) 令人安心的畫面。

可能的醫療檢驗結果


病人實際該症狀 (A)

病人實際該症狀 (B)

檢驗結果顯示該症狀

true positive

真陽性

(分數正確)

敏感度 (sensitivity)

false positive

偽陽性

(分數錯誤)

檢驗結果顯示該症狀

false negative

偽陰性

(分數錯誤)

true negative

真陰性

(分數正確)

特異性 (specificity)


敏感度 (sensitivity)

特異性 (specificity)

  • 若一個人真的有該疾病,檢驗結果為陽性的機率有多高

  • 即 A 欄中,有多少比率會得到陽性的檢驗結果

  • 若一個人沒有該疾病,檢驗結果為陰性的機率有多高

  • 即 B 欄中,有多少比率會得到陰性的檢驗結果

如果一個人得到陽性的檢驗結果,那麼這個人真的有該種疾病的可能性有多高?從病人的角度來看,可被視為這些檢驗基本的有效性考量。病人會問,醫生,我可以相信這些檢驗結果嗎?有可能哪裡出錯嗎?


10,000 名女性乳房攝影結果 

(base rate = 12%, 敏感度約 90%, 特異性約 92%)


病人實際乳癌 (A)

N = 120

病人實際乳癌 (B)

N = 9,880

乳房攝影指出癌變

真陽性

敏感度 (sensitivity)

90%N=.9120=108

偽陽性

8%N=.089,880=790

乳房攝影指出癌變

偽陰性

10%N=.1 120=12

真陰性

特異性 (specificity)

92%N=.929,880=9,090

  • A 欄與 B 欄必定是獨立的,各自加起來為 100%,因此能估算偽陰性與偽陽性的比率

  • 898 名拿到陽性結果的女性,有 790 名是錯的,只有 108 名是正確的,因此乳房攝影結果為陽性的受驗者,後續的追蹤檢查最常見的結果實際上是沒有癌症的。較敏感的檢查通常會產生更多的偽陽性,但在生死之間的嚴重狀況中,似乎是我們可接受的代價。

  • 9120 名陰性結果的女性中,有 12 名真的有癌症,因此錯過治療

Bayes 的條件機率方法,是「如果這樣,那麼...發生的機率會是怎樣?」是一種條件機率問題,Bayes 的條件機率是檢視事件發生的自然發生頻率。估計在一個人拿到陽性結果的條件像,那個人擁有某種疾病機率的基本公式是:true positivestrue positives + false positives。假設 base rate = .012、seneitivity = .90、specificity = .92,以條件機率表達,公式為 base rate snsitivity(base rate sensitivity)+(1-base rate)(1-specificity)=.012.90(.012.90)+(1-.012)(1-.92)=.1202,代表若一名女性拿到陽性的檢查結果,真的有乳癌的可能性為 12.02%。


  1. 【Hack #35】Gamble Smart (賭得聰明):不管是什麼遊戲,如果涉及金錢與機率,有一些基本的博弈原則可以幫助快樂的統計學家保持愉快。賭博的世界瀰漫著神秘、迷信和數學的混論,對這些機率遊戲多認識一點,能幫你度過難關。

賭徒謬誤 (Gambler’s Fallacy)

  • 是一個直覺但是錯誤的信仰體系,使許多原本消息靈通的袁家付出代價。

  • 當你在玩 21 點 (blackjack) 時,是否曾經連續拿了很多手壞牌,使得你增加賭注,認為情勢隨時可能改變,你就陷入賭徒謬誤 (Gambler’s Fallacy),以為連續拿了好幾次壞牌,拿到好牌的機率會增加

  • 套用到純粹機率的遊戲上時,會是一連串「獨立事件」,事件間彼此毫無關係,每個個別的結果都與它之前的結果無關,這個事實經常被總結為「骰子沒有記憶」。

  • 與賭徒謬誤相仿的信念範例包含

    • 一段時間未開出的吃角子老虎機就快吐錢了。

    • 一整晚都拿到爛牌的玩家很快就會拿到一手超級好牌扳平。

    • 過去三場比賽都輸球的球隊,更有可能在第四場贏球。

    • 輪盤上已經連續八次落在紅色數字上的球,接下來幾乎可確定會落在黑上數字上。

  • 請不惜一切代價避免上述謬誤,這樣你賭輸的錢應該會少一些

賭場和金錢

  • 在機率遊戲中,公平的回饋 (fair payout) 是長期來說,會使兩邊的參與者 (即賭場及賭客),達到收支平衡的支付金。

  • 賭場能賺錢的第一個原因是,莊家優勢。以美式輪盤遊戲 (ROULETTE) 來說,共有38個號碼,18 個紅色、18 個黑色與 2 個綠色,這讓莊家有高於公平回饋 2/38 (5.26%) 的莊家優勢。一般來說,賭場用此方式盈利並不公平,但這也是賭徒與賭場的社會契約的一部分。

  • 賭場能賺錢的第二個原因,是因為賭徒口袋並非無限深,也沒有無限長的時間可賭博。賭場的優勢 (ex. 輪盤上的 5.26%),是指如果一個玩家下注無限次,賭場能拿走的金額。這個無限玩家會贏一陣子,書一陣子,然後在任何時間點,平均來說,會輸掉其起始資金的 5.26%。不過實際狀況時,大多數玩家不繼續玩的原因,通常時沒錢的時候。大多數玩家都是在有錢的時候持續下注,然後沒錢的時候停止下注。

  • 以上兩個原因,讓賭博遊戲對賭場而言是有利可圖的,不是與特定遊戲關聯的機率,而是人類的行為:玩家持續玩的傾向

  • 這個 hack 給賭徒的一般建議是,過了特定一段時間後就走人,不管你是贏錢或輸錢。如果你夠幸運,在你時間用盡之前,就贏了很多錢,請考慮離開賭場

投注系統 (betting systems)

  • 典型的投注系統會建議你在一次損失後增加你的賭注,不過也有系統則建議你在贏一次後增加你的賭注。這些系統都假設連勝或連被總是比較可能結束而非繼續,這都犯了賭徒謬誤。若是下注金額必須增加,直到玩家贏了為止,長期來說,口袋大小有限定律 (law of finite pocket size) 會破壞系統,因為持續加倍賭注會很快吃光你的初始資金

  • 輸了就加倍系統

輸的次數

押注大小

總支出

1

$5

$5

2

$10

$15

3

$20

$35

4

$40

$75

5

$60

$135

6

$120

$315



  1. 【Hack #36】Know When to Hold ‘Em (德州撲克):在 Texus Hold ‘Em (德州撲克) 中, 使用簡單的「四的法則」(rule of four) 計數方法,根據檯面上籌碼來估計你贏的機率

四的法則 (rule of four) 

【運作方式】計算發出來能幫助你的牌變好的牌卡數目,再把那個數目乘以 4,這個成績就是你會得到一或多張那種排的百分比機率。

【範例一】

你有一張♦️J、一張♦️ 3,翻牌帶來♣️ K、♦️ 6 以及 ♦️ 10,你有四張可能湊成同花 (flush) 的牌,而有九張能讓你湊成那個同花。根據四的法則,你有 94=36%的機率可得到同花,代表你有 ⅓ 的機率,不該放棄。

【範例二】

你有一張♦️ A、一張♣️ 2,翻牌帶來♥️ K、♠️ 4 與 ♦️ 7,你能算六張能幫助你的牌 (三張 A 的任一張或三張 2 的任一張)。如果要押到最後,一對 2 可能只代表麻煩,所以假設希望看到的牌是那三張 A,你只有 12% 的獲勝機率 (34=12),蓋牌吧。

【何處行不通】

四的法則所算出的機率會比實際機率稍為高一點,但是如果能幫助你的牌超過 12 張,四個規則就會因為過度高估而不適用


  1. 【Hack #37】Know When to Fold ‘Em (知道何時蓋牌):在德州撲克中,底池本益比 (pot odds) 的概念提供一種強大的工具,來幫你判斷要繼續或蓋牌。舉例來說,如果你估計有 50% 的機率贏得一個底池,但是這個底池很大,你如果贏了,拿到的籌碼會超過你跟注成本的兩倍,那麼你就該跟注。

玩家

Thelma

Louisa

Mike

Vince

手上的牌

♣️ A、♥️ A

♣️ 2、♣️ 4

♥️ 4、♠️ 5

♦️ K、♦️ 10

開場押注

50

50

50

50

翻牌

♠️ A、♦️ 3、♦️ 6

需要的牌


四張五的任一張

四張2或四張7任一張

九張 ♦️ 中任一張

得牌機率

(rule of four)


44=16%

84=32%

94=36%

目前底池

200

250

250

300

以底池百分比表示的跟注成本


50250=.2,即 20%

50250=.2,即 20%

50300=.17,即 17%

動作

押 50

蓋牌

(因為 20% > 16%,風險大於報酬)

跟注 50

(因為 20% < 32%,風險小於報酬)

跟注 50

(因為 17% < 36%,風險小於報酬)

轉牌

♣️  J

需要的牌



四張2或四張7任一張

九張 ♦️ 中任一張

得牌機率

(rule of two),因為只剩下一張牌,故改用 rule of two



82=16%

92=18%

目前底池

350


450

450

以底池百分比表示的跟注成本



100450=.22,即 22%

100450=.22,即 22%

動作

押注 100


蓋牌

(因為 22% > 16%,風險大於報酬)

蓋牌

因為 22% > 18%,風險大於報酬)

  • 底持本益比所根據的假設是,你會持續玩撲克無限長的時間。如果你是在無限注錦標賽的形式,無法繼續挖自己的口袋,你可能就不會願意冒著失去所有或大部分籌碼的風險,去賭你認為長期來說可能會發生的報酬。

  • 不要把「非常好的一手牌」是為贏牌保證,其他玩家也可能拿到非常棒的牌,甚至比你的還好


  1. 【Hack #38】Know When to Walk Away (知道何時走人):在德州撲克中,當你籌碼短缺 (short-stacked) 時,你只有幾個選擇:立刻全押 (all-in) 或盡快這麼做。如你可能已經猜到的,知道何時施展最終手段,關鍵在於機率。

籌碼短缺時,很難決定 all-in 的原因

① 沮喪、懷疑自己,在難過的時候很難做出什麼正確決定

② 由於你沒有犯錯空間,在此種高風險狀況下,你很難扣下 all-in 板機

盲注(blinds)是撲克術語,在撲克遊戲中被逼下注的注碼。盲注多數是兩注,亦可以是零至三注。小盲注通常在大盲注 (big blind) 的上家。在撲克單挑賽中,翻牌前先出注者是小盲注,另一玩家則是大盲注。大盲注是小盲注的兩倍。

認出籌碼短缺情況

說明

大盲注的 12 倍或更少

  • 雖然此一階段你可以玩上好一會兒不會把籌碼耗盡。你贏得的盲注越多,就有更多時間等待殺手牌。如果你被押注,可以考慮 all in 回應。

  • 在此宣告 all-in 可以讓你減輕一點負擔,因為你會有足夠的籌碼讓別人不跟,再等一會,你少得可憐的籌碼就不足以嚇唬任何人

大盲注的 8 倍或更少

  • 在此你仍有足夠籌碼嚇唬某些玩家。

  • 你的籌碼開始變少,你必須盡可能多玩一點盲注,等待 all-in 的機會出現。

大盲注的 4 倍或更少

  • 在此時候你就要 all-in,即使輸牌機率 > 50%

  • 如果你等了又等,在較有把握的情況才 all-in,無論籌碼剩多少,都必須再加倍幾次,你才有辦法重回賭局。

保持正確心態

說明

① 務實

  • 在 blackjack 遊戲中,當手上玩家手上是 16,卻可能拿到 7 時,他知道他很可能爆掉,但還是這麼做了,因為莊家底牌可能是 10。

  • 你應該對自己極力爭取回到賭桌並獲勝的最佳機會感到高興

② 享受 all-in 體驗

  • 當你除了 all-in  別無選擇時,就盡力放鬆,好好享受,你只是做了可能範圍內最聰明的事。

③ 掌握控制權

  • 你的籌碼越變越少時,你控制自身命運的能力也變得越小

  • 要避免被迫去做你不想要做的事,在你仍有大盲注 10~12 倍的籌碼時就採取行動,避免落入籌碼短缺的情況。


  1. 【Hack #39】Lose Slowly at Roulette (玩輪盤時輸慢點):輪盤 (roulette) 純粹是機率遊戲,沒有人有任何技能可預測分成 37 個 (歐式) 或 38 個 (美式) 位置的哪些位置最後會有珠子落下。玩家能做的,頂多就是知道機率、管好他的錢,並假設玩下去就會輸。

下注 0 或 00 不算中獎,莊家優勢,多了 238=5.26%獲勝機率 (常數)

輪盤每 1 美元賭注的統計資訊

賭注類型

贏的結果數

輸的結果數

勝算

賭場付出

莊家優勢

單一號碼

1

38-1=37

37:1

$35

37-3538/1=5.26%

兩個號碼

2

38-2=36

36:2 or

18:1

$17

18-1738/2=5.26%

單一顏色

18

38-18=20

20:18 or

1.11: 1

$1

1.11-138/18=5.26%

奇偶數

18

38-18=20

20:18 or

1.11: 1

$1

1.11-138/18=5.26%

12個號碼

12

38-12=26

26:12 or

2.17:1

$2

2.17-238/12=5.26%



【不建議的做法】把籌碼放到邊緣,同時碰到 00 與 1 (同時押注五個)

賭注類型

贏的結果數

輸的結果數

勝算

賭場付出

莊家優勢

五個號碼

5

38-5=32

33:5 or

6.6 : 1

$6

6.6-638/5=7.89%

使用 36 個號碼才是明智的選擇,36 的因數 (factors) 很多,可以被 1, 2, 3, 4, 6, 9, 12, 18 整除,這使得很多簡單的下注變成可能。


  1. 【Hack #40】Play in the Black in Blackjack (二十一點):或許最有潛力賺到錢的統計應用是在 21 點的牌桌上。

容易上當的賭注 (sucker bet)

如果莊家的明牌 (face-up card) 是一個 A,許多賭場會提供你買保險 (insurance) 的機會,保險意味你可以再加注原本注碼的一半,若莊家是 blackjack,你就會贏得這個額外賭注,但輸了你原本的注碼 (除非你也是 blackjack,這種情況就是平手,可拿回原本的賭注)。


莊家的暗牌是 10 點的機率是:413=.31(31%),你輸掉保險金的機率會比贏還要高

簡單的算盤方法

說明

計數 Ace

拿到 blackjack 的機率,其計算方式是加總以下兩個機率

① 先拿到一張 10,然後再拿到 A

16524(52-1)=.0241

② 先拿到一張 A,然後再拿到一張 10 點的牌

45216(52-1)=.0241

拿到 blackjack 的機率是 .0241+.0241=.0482(約 5%)


在一副牌中,之前發過 A 會讓你拿到 blackjack 的機率降到 3.6% (

1652352-2+3521650=.036);發了一副牌的 ¼ 後,仍舊沒出現 A,會讓你拿到 blackjack 的機率上升到約 6.2% (413439-1+4521639-1=.062)

計數 A 和 10

10 點的牌包含 10、J、Q、K,加上 A,約有 20 張 (54),大約是總牌卡數的 38% (2052=.384)。

若一副牌已用掉一半,所有 20 張牌都在,你看到 blackjack 的機率飆升到 19.7% (16264(26-1)+42616(26-1)=.197)。

以點數系統玩牌

簡單的算牌點數系統:

牌種

每張卡的點數值

【高分牌】10, J, Q, K, Ace

-1

【中間牌】7, 8, 9

0

【低分牌】2, 3, 4, 5, 6

+1


看到高分牌是不好的,因為拿到 blackjack 機率會下降,因此你的計數值會損失一點;看到低分牌是好的,因為那副牌中的高分牌比例會較多,所以你獲得一點


在一副牌的情況下,+2 的計數值就大到足以有意義地增進你贏的機率。有時候你會看到非常高的計數值,不要猶豫,馬上提高押注金額。

別犯了 Hack #35 提到的謬誤

賭徒謬誤 (Gambler’s Fallacy):純粹機率的遊戲上時,會是一連串「獨立事件」,事件間彼此毫無關係,每個個別的結果都與它之前的結果無關,骰子沒有記憶

過了特定一段時間後就走人,不管你是贏錢或輸錢。如果你夠幸運,在你時間用盡之前,就贏了很多錢,請考慮離開賭場


No comments: