albert's blog: [閱讀筆記] Statistics Hacks (2/6)

假設檢定流程 (http://shorturl.at/jmyzM)

假設檢定流程	說明
提出相關的虛無假設和對立假設	H0 與 H1 H0 , 虛無假設（null hypothesis）：零假設通常由研究者決定，反應研究者對未知參數的看法 (虛無假設是「一般情形」) H1, 對立假設（alternative hypothesis）：它通常反應了執行檢定的研究者對參數可能數值的另一種看法。 (對立假設是你想證明的「特殊觀點」，是你有興趣去確認的部分) Type I Error 與 Type II Error Type I Error：當 H0 為真，而拒絕 H0 所發生的錯誤。P(Type I error) = α，α 又稱為顯著水準(significance level)。 Type II Error：當 H0 為假，而不拒絕 H0 所發生的錯誤（也就是 H1 為真，沒有接受 H1 為真所發生的錯誤）。P(Type II error) = β
選擇檢定統計量	Z 檢驗：當樣本數 n > 30，可以使用 z 分配 (常態分配) T 檢驗當樣本數 n < 30，使用 t 分配 T分配相似於常態分配的曲線，不同的是他是依著「自由度」來改變分配的形狀。常態分配其實是T分配的的一個特例，當df=∞，T分配就是常態分配。實際的例子上，只要df=30，t分配就已經很接近常態分配。卡方檢驗使用卡方分配做檢定卡方檢定適用於探討兩個類別變數的相關，是實務上最常用到的方法之一。
選擇顯著水準並決定決策法則	Rejection Regions 決策法則通常是決定一個接受域 (接受 H0) 與拒絕域 (接受 H1)。接受域與拒絕域的接點，稱為臨界點 (Critical Point)。單尾檢定 (One-tailed test)：對於調查之理論方向是十分清楚，我們是應採用要單尾檢定。例如在語句當中有「是否高於？」、「是否低於？」、「是否優於？」、「是否劣於？」等等。對於變數在群體間的變化方向是單方向的，我們應當採取單尾t檢定。雙尾檢定 (Two-tailed test)：對於理論變化的方向不很清楚，原則上則要採取雙尾檢定。例如：對於男、女性別的不一樣，對於捐血的態度，兩者的看法有什麼區別？凡是在調查語句當中採取兩者（或兩者以上）「有何區別？」、「有何不同」、「有什麼不一樣時」，是採取雙尾檢定。對於變數之間在群體的變化方向，可能是雙方向的，我們就應採取雙尾t檢定。 p-value p-value是在假設虛無假設為真的前提下，觀察到檢定統計量比取樣得到的值更極端的機率。p-value 越小，表示檢定的結果越顯著，越可以拒絕假設檢定中的虛無假設。
比較樣本統計量與臨界值並下結論	結果若是接受 H0，不表示 H0 為真，僅是樣本沒有足夠證據推翻他。結果若是拒絕 H0，即表示樣本提供足夠證據接受H1 為真。

【Hack #5】增加樣本數、降低誤差 (Go Big to Get Small)：縮小你抽樣誤差 (sampling error) 最好的辦法就是增加你的樣本大小 (sample size)。這也是所謂的大數法則 (Law of Large Numbers)，人們發現，在重複試驗中，隨著試驗次數的增加，事件發生的頻率趨於一個穩定值；人們同時也發現，在對物理量的測量實踐中，測定值的算術平均也具有穩定性。大數法則的描述只出現或採樣都是「隨機 (randomly)」的情況下成立。

大數法則應用	說明
賭博	若在單一次試驗中，某個事件有一特定的發生機率，當執行無限次的試驗時，出現的比例就會接近那個機率。
誤差	樣本平均與母體平均之間的差異，會隨著樣本大小接近無限大而遞減、靠近零。
影響	樣本所代表的母體中重要的特性之數目會隨著樣本大小變大而遞增，就跟他們估計值的準確度一樣。

【Hack #6】精確測量 (Measure Precisely)：古典測驗理論 (classical test theory) 能為任何測驗中組合起來產省一個分數的那些要素做出不錯的分析。這個理論有一個實用的意義是，測驗分數的精準度可以被估計並回報。

Observed Score = True Score + Error Score

受試者的真實值或真正能力是無法直接觀察的，只能由測量的方式去找出觀察值或觀察到的能力。這種觀察值含有誤差，而此誤差被假設為一個隨機(random) 變數，其分配是以零為集中趨勢指標的常態分配。這種誤差有時大於真實值也有時小於真實值，但總平均起來誤差為零。由於此隨機誤差的存在，因此即使受試者的真實值 (T) 是固定不變的，每一次的觀察值卻不一定都相等，不過觀察值的分配亦為常態分配。(古典測驗理論)

方程式組成元素	說明
觀察到的分數 (Observed Score)	在一個測驗實際回報的分數，通常等於正確回答的題目數，或廣義地說，在測驗上獲得的分數。
真實分數 (True Score)	不是你應得的分數，也不是最有效的分數。真實的分數是你接受了相同測驗無限次後，所得到的平均分數。真實分數代表的是平均表現，可能沒真實反映出該測驗想要測量的特徵，換句話說，一個測驗可能產出真實分數，但不是有效分數。
誤差分數 (Error Score)	你觀測到的分數與你真實分數的差距。

良好的測驗須兼具有效性 (validity，效度) 與可靠性 (reliability，信度)：

效度與信度

說明

有效性

(validity，

又稱效度)

一把刻度很精確、不會熱脹冷縮，就是「信度」很高的尺，但如果用這把尺來量一群人的體重，就不適用，量測結果就不是很「有效」。

可靠性

(reliability，

又稱信度)

有效性是一個測驗分數代表想要測量特徵的程度，譬如一把捲尺昨天量一個人的身高是 170 cm，今天再量卻變成 165 cm，一個人不可能一天差 5cm，顯然這把尺有問題，量測結果「信度」不高。

confidence interval, CI：由樣本資料定義一段數值區間，宣稱有多少信心以估計母體的參數包含於此區間內。該數值區間上、下限稱為信賴界限 (confidence limit)。用以估計的信心程度稱為信賴(心)水準 (confidence level)。一般常以 95% 或 99% 為信賴水準指標；相對應的 Z分數(相差幾個標準差) 分別為 1.96 與 2.58。可表示為：

信賴水準

說明

95% 信心估計

母群體平均數

在樣本平均數 ± 1.96 * (母群體標準差 / 樣本數 n 的平方根) 的範圍內
之95%CI=X1.96n

99% 信心估計

母群體平均數

在樣本平均數 ± 2.58 * (母群體標準差 / 樣本數 n 的平方根) 的範圍內
之99%CI=X2.58n

【Hack #7】度量水平 (Measure Up)：四種度量水平 (levels of measurement) 決定了再測量中所產生的分數可以如何被使用。如果你沒有正確的度量水平，你可能無法依照你想要的方式來把玩那些分數 (scores)。度量水平決定了哪種統計分析是恰當的、有意義的。度量 (measurement) 是依據某些有意一把數字指定給事物的活動，可以是實際存在的物體 (ex. 岩石)，也可以是抽象的概念 (ex. 聰明才智)。度量水平有四種：名目 (nominal)、順序 (ordinal)、等距 (interval) 和等比 (ratio)

度量水平	說明
名目 (nominal)	把數字當成名稱 (name) 來使用。例如，收集男性與女性的資料，使用 1 代表男性受試者，2 代表女性受試者，就是在用名目度量使用這些數字。儘管數字上 2 > 1，但是這個 data set 中，2 只是一個名稱。
順序 (ordinal)	若你分析分數的方式是要來測表現作為某種順序或等級的證據，那就是用順序水平 (ordinal level) 來進行測量。例如，教育程度包含小學、初中、高中、學士、碩士、博士等；服務評等包含傑出、好、欠佳。你可以將分數相互比較，但對於分數間的距離一無所知。在賽跑中的前三名，第一名可能僅領先第二名 1 秒.，第二名可能比第三名快了 30 秒。
等距 (interval)	在華氏溫度計上，70 與 69 度之間的有意義的差異，就是 1 度，等於 32 與 21 度之間的差異。那 1 度被假設是等量的熱，不管該間距 (interval) 出現在溫度計的哪裡。等距水平提供的資訊較順序水平多，而且你可以對分數進行有意義的平均，大多數的教育和心理學測量都使用等距水平。但是，我們不使用比值 (fractions) 或比率 (ratios) 來做比較，例如，討論溫度時，我們不會說今天 (40 度) 是昨天 ( 80 度) 的一半熱；討論 IQ 時，，我們不會說 A 生 (IQ 120) 比 B 生 (IQ 90) 多聰明 1/3。
等比 (ratio)	等比 (ration) 是最高層級的測量水平，具有等距的所有特點，同時它也允許乘除運算。大多數物理量，如質量，長度、絕對溫度或者能量等等都是等比尺度。等比水平測量是我們觀測並計量世界最常使用也最直覺的方式，當我們在計數 (count) 時，就是在用等比水平，例如，公園裡有幾隻貓？你就是在用等比水平。

度量水平的區別：盡可能使用最高水平的測量，也就是等比 (ratio)

度量水平	強項	弱項	可運用算式	定性或定量
名目 (nominal)	描述類別資料	數字不代表量值	﹦≠	定性，如性別
順序 (ordinal)	允許分數間的比較	很難做出分數摘要	﹦≠ > ＜	定性，如服務平等包含傑出、好、欠佳
等距 (interval)	大多數統計分析都可行	無法進行比例式比較	﹦≠ > ＜ + −	定量，如溫度、緯度、年份等
等比 (ratio)	真 0 (true zero) 允許我們進行所可能的統計分析	某些感興趣的變數沒有 true 0	﹦≠ > ＜ + − ×÷	定量，如價格、年齡、高度、絕對溫度、絕大多數物理量

【Hack #8】提升檢定力 (Power Up)：社會科學中的成功定義，通常就是找到具有統計顯著性的新發現。為了增加發現某些事情或任何東西的機率，精通統計學的超級科學家主要的目標都是增強統計檢定力 (power)。統計分析經常需要判斷在某個樣本中觀察到的一個特定的值是否是碰巧出現的，此過程稱為顯著性檢定 (test of significane)。顯著性檢定會產生機率值 (p-value, probability value)，如果 p-value 很小，說明原假設情況的發生的概率很小，而如果出現了，根據小概率原理，我們就有理由拒絕原假設，p-value 越小，我們拒絕 H0 的理由越充分。在大家習慣採用 0.05 當作一個臨界，當研究的 p 值小於這個臨界值的時候就宣稱研究結果達到統計顯著，也就是說大家普遍同意接受 5%犯錯的可能性。
統計研究常見陷阱

陷阱	解法
從樣本自以為找到母體某項特性，但是只存在於樣本中	以對母體具有代表性的方式進行抽樣 (Hack #19)
在樣本找不到任何特性，母體卻確實存在	增強統計檢定力 (power)

檢定力並非找到顯著結果 (significant result) 的機率，它是某種關係「真的存在」時，找到該種關係的機率。檢定力的公式包含三個組成部分：

檢定力的公式包含三個組成部分

① 樣本大小 (sample size)

② 要達到 (小於）預先決定的顯著性水平 (p-value)

③ 效應大小 (effect size, 母體中該項關係的強度)

Z 檢定 vs T 檢定

檢定	說明
Z 檢定	用於大樣本(樣本數大於30，統計學上可代表母體)
T 檢定	t 檢定則用於小樣本(樣本數小於30)。t 檢定的運算中包含自由度，當樣本數越高，自由度越高，其結果與 Z 檢定也越相近。

學生 t 檢定 (Student’s t-test) (https://reurl.cc/7yje0N)

t 檢定	說明
單一樣本 t 檢定 (one sample test) TTEST(範圍_1, 範圍_2, 尾數=2, 類型=2)	當我們想要去檢驗手邊樣本和某特定值之間的關係時，我們會將樣本的平均數和該特定值加以比較 (例如：某班的平均身高是否與全校平均身高有差異)，此時則採用單一樣本 t 檢定來進行檢驗。
獨立樣本 t 檢定 (Independent sample t-test) TTEST(範圍_1, 範圍_2, 尾數=2, 類型=3)	在進行獨立樣本t檢定之前，我們會先進行變異數的同質性檢定，若兩組資料的變異數具有同質性，我們便可使用 Student’s t-test；反之，若兩組資料的變異數不具同質性，我們則必須對 t檢定的自由度做修正，此時會改採修正版的Welch’s t-test 來進行檢驗。獨立樣本 t 檢定常用來檢驗兩組相互獨立的資料之間是否有顯著差異 (例如：想要知道A、B兩班學生的生物成績是否有顯著差異)。進行檢驗前，我們希望確定每一組樣本平均數的確能夠被互相比較，因此兩組樣本除了需要符合常態分配外，也希望其離散分布的狀況能具有相似性，亦即，樣本的變異數需要具有同質性。獨立資料：在機率論中，說明兩個事件獨立，是指在一次的實驗中某一事件的發生不會影響到另一件事情發生的機率，舉例來說：擲一枚公正的銅板時，出現「人頭」的事件與出現「數字」的事件不會互相影響，即為兩事件獨立。
成對樣本 t 檢定 (Paired samples t-test) TTEST(範圍_1, 範圍_2, 尾數=2, 類型=1)	相較於獨立樣本 t 檢定之用來比較兩組「獨立樣本」間的平均數差異，成對樣本t檢定則是用來比較兩組「相依樣本」間的平均數差異。舉例來說，當我們今天希望知道某種療程對於肝腫瘤大小是否有明顯作用時，我們就可以使用成對樣本 t 檢定來進行檢驗：首先，我們從肝腫瘤病患名冊中隨機挑選出一群病患來當作樣本，測量並記錄該群病患治療前的肝腫瘤大小；接著讓這群病患進行治療，待療程結束後再次測量並紀錄病患治療後的肝腫瘤大小。之後，使用成對樣本t檢定來檢驗療程前後的資料變化，若前後資料有顯著差異，我們便認為此療程對肝腫瘤的大小變化的確有影響；反之，則認為此療程對肝腫瘤的大小沒有明顯影響。

t 檢定範例

【單一樣本 t 檢定】執行兩樣本具有同一變數 (同質性) 的檢定		【獨立樣本 t 檢定】執行兩樣本不具有同一變數 (異質性) 的檢定		【成對樣本 t 檢定】執行配對檢定
A 組學生體重	B 組學生體重	A 組學生體重	B 組學生體重	原始體重	運動一個月後體重
64	57	64	49	70	72
67	64	67	39	87	91
66	53	66	58	84	84
61	52	61	53	76	79
52	53	52	71	67	69
62	54	62	53	66	69
63	56	63	54	83	84
61	60	61	68	46	48
53	61	53	60	71	71
58	58	58	52	88	90
單一樣本 t 檢定	0.0703	獨立樣本 t 檢定	0.1544	成對雙樣本 t 檢定	0.0012
T.TEST(A3:A12,B3:B12,2,2)		T.TEST(D3:D12,E3:E12,2,3)		T.TEST(G3:G12,H3:H12,2,1)
p-value 是 0.0703，大於 0.05，表示兩群的學生體重並沒有明顯的不同		p-value 是 0.1544，大於 0.05，沒有明顯證據顯示兩群學生的體重有差異		p-value 是 0.001，遠小於 0.05，所以證明長期運動對於體重是有影響的。

Type I Error, Type II Error：α 與 β 互為拮抗，亦即 α 提高時、β 降低；反之亦然。統計學上認為犯 Type I Error 的後果相當嚴重 (i.e. 宣告無罪的人有罪)，因此一般希望能將其發生的機率 (α) 控制在一定的程度 (0.05 or 0.01)。當固定 α 時，可透過增加樣本數達到降低 β 的目的。(http://shorturl.at/pqDOX)

檢定錯誤	說明
Type I Error	拒絕一個真的虛無假設。犯型 I 錯誤的機率：P ( Type I Error) ＝ α 若 H0（虛無假說）為真，但結論卻否決 H0，則犯了Type I Error，犯 Type I Error 的機率為 Type I Error Rate，其發生的機率以 α 表示，或稱顯著水準 (significant level)。
Type II Error	無法拒絕一個錯誤的虛無假設。犯型 II 錯誤的機率：P ( Type II Error) ＝ β 若 H1（對立假說）為真，但結論卻接受 H0，則犯了Type II Error，犯 Type II Error 的機率為 Type II Error Rate，其發生的機率以 β 表示。另外，統計上常稱 1−β 為檢定力 (Power)。
在進行假說檢定時，p-value 也是一種幫助我們下決策的指標；p-value 的定義為: 在 H0（虛無假說）成立的情況下，檢定統計量的取樣分布中往 H1 方向超過或等於實際觀測到之檢定統計量值的尾端機率（下圖灰色部分）。p-value 可用來在任何顯著水準下作檢定，若 p-value ≤α 決策為棄卻 H0；若 p-value >α 決策為在 α 的顯著水準下，不棄卻 H0。

虛無假設 (H0) 必須是假的，否則你「發現」新知的機率相當渺茫。如果你「發現」某個東西，但實際不存在（拒絕一個真的虛無假設），你就犯了 Type I error。母體中你的研究變數間必須真的有關係存在，你才能在樣本資料中找到它。
檢定力不是成功機率，也不是達成某個顯著水平的機率。這是在「研究者估計的所有值最終都正確」的前提下，達到某個顯著水平的機率。
【Hack #9】顯示因果關係 (Show Cause and Effect)：如果你希望展現的是某件事情導致另一件事，你必須遵循統計研究人員以建立的一些規則。群組設計 (group designs) 有四種基本類型，依據設計是否能為因果關係提供強烈的、中等的、微弱的、完全沒有的證據來分類：

group designs	說明
非實驗設計	「完全沒有」提供因果關係證據。此設計通常僅涉及一組人，而統計數據被用來描述母體或展現變數間的某組關係。
前實驗設計	提供「微弱」的因果關係證據，未具備實驗組或控制組的比較。先給一組人 pretest，然後對他們做些事情，再給他們post-test，看分數是否改變。
準實驗設計	提供「中等」的因果關係證據基於現實考量，「缺乏隨機分派之要件」，僅具備實驗組和控制組以及前測後時間點的測量，即為準時驗研究設計。由於分組不是隨機指派，這些群組可能在一些位測量的變數上彼此不相等，而那些可能是我們所找到的任何差異背後真正的原因。
實驗設計	提供「強烈」的因果關係證據。具備實驗組和控制組、前後測時間點的測量以及隨機分派。例如，藥物研究，其中所有的參與者都是隨機得到要測試的藥物、比較藥物或安慰劑。

研究結果的有效性考量 (validity concerns)：

有效性考量	有效性問題
統計結論有效性 (statistical conclusion validity)	變數間有關係存在嗎？
內部有效性 (internal validity)	這個關係是一種因果關係嗎？
建構有效性 (construct validity)	這個因果關係存在於你相信應受影響的變數間嗎？
外部有效性 (external validity)	這因果關係到處都有且會影響到每個人嗎？

在做因果主張 (casual claims) 和推廣結果主張 (claims of generalizability) 之有效性，常見的威脅：

推論有效性的威脅	說明	解法
歷程中同時存在的事件 (history)	外在事件可能影響結果	使用一個「比較組」 (不熟藥物或干預或其他處理得比較組)，並將受試者「隨機」指派到各組中。
成熟的效果 (maturation)	研究過程，受試者自然也會知道測試方式，導致結果不準	「隨機」將參與者指派到實驗組和控制組
選擇性偏差 (selction)	指派受試者到各組的方式可能有性統系偏差存在	「隨機」指派受試者
測驗的效果 (testing)	單純只是接受 pretest 可能影響到研究變數的水平	「隨機」指派受試者到實驗組與比較組，並讓兩者都接受 pre-test。
測量工具的偏差 (instrumentation)	測量過程中可能有系統性的偏差出現	使用有效的、標準化的、給分客觀的測驗
霍桑效應 (hawthorne effect)	參與者意識到他們是研究中的受試者時，會影響測驗結果	讓受試者不清楚你預期的是什麼結果，或者進行雙盲研究 (double-blind study)，讓受試者與研究人員都不知道他們所接受的處置

【Hack #10】識別出重大發現 (Know Big When You See It)：你剛讀了一篇科學新發現，但是這樣的發現很重大嗎？具有統計顯著性 (statistically significant) 的發現 ≠ 重要或有用的發現。應用效應大小 (effect size) 來判斷其重要性。effect size 是一個標準化的值，用來表現兩個變數間某個關係的強度。例如，每天服用半顆 aspirin 來降低心臟病發的風險值得嗎？到底降低多少風險？

albert's blog

Total Pageviews

2021/05/02

[閱讀筆記] Statistics Hacks (2/6)

No comments: