Total Pageviews

2021/08/16

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十五章 特異功能真的存在嗎?(Don’t Confuse Me the Facts )

 第十五章  特異功能真的存在嗎?(Don’t Confuse Me the Facts )

超感知覺/胡迪尼的挑戰/一個家庭對超自然現象的著迷

  1. 所謂的 ESP 是獨立於傳統五感 (sight, sound, touch, taste, and smell) 以外的感官知覺。大多數的科學家都同意 ESP 實際存在的證據不多,但他們可能是錯的。你或你的朋友或你養的狗可能有 ESP,而現代就是找出它們的最佳時代。

Zener Cards

  • Zener Cards 由五種符號組成,猜對機率會是 15=.2

  • 極端結果在樣本大小增加時,會出現劇烈下降的狀況。舉例來說,只猜 25 次時,命中率 40% 的機率約 1%;當猜 100 次時,機率劇烈下降至 .00001%。

  • 以命中率來說,20% 屬正常,24% 就高於平均,但也沒有到非常不尋常,但何時會認為不尋常?此時會運用 t 檢定

  • 顯著性檢定會產生機率值 (p-value, probability value),如果 p-value 很小,說明原假設情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,p-value 越小,我們拒絕 H0 的理由越充分。大家習慣採用 0.05 當作一個臨界,當研究的 p 值小於這個臨界值的時候就宣稱研究結果達到統計顯著,也就是說大家普遍同意接受 5%犯錯的可能性


  1. 哪個比較好?人與人之間真有差異嗎?如果你想要為你的這些關於最好、最多或最少的信念找出一些真實的證據,你可以使用獨立 t 檢定 (independent t test) 來支持你的論點。例如,M&M 巧克力綠色比藍色好吃、女人永遠不會收到罰單等。t-test 源自於啤酒統計學家為了判斷啤酒製造過程中,裝滿整部升降機的穀物品質,因無法檢查所有穀物,故設法檢視隨機從較大的穀物母體抽出的一個小型樣本的方法。假設我們想驗證,女生永遠不會收到超速罰單:


罰單數

Group 1 (male)

Group 2 (female)

平均數 (mean)

1.71

1.35

變異數 (variance)

0.71

0.25

樣本大小 (sample size)

15

15

計算過程

t=Mean of Group 1 - Mean of Group 2Variance for Group 1Sample Size of Group 1+Variance for Group 2Sample Size of Group 2=1.71-1.350.7115+0.2515=1.42

< 5% 的機率偶然發生的 t 值


兩個群組加起來的樣本數

臨界 t 值

4

4.30

20

2.10

30

2.05

60

2.00

100

1.00

1.96


  • t 檢定所回答的問題是,兩個樣本間發現的任何差異是否也存在與母體中,或是出於抽樣誤差。若 t 值 > 臨界值,我們就可以宣稱母體間有一種真正的差異存在。

  • 因為 t = 1.42 < 2.05,沒有足夠證據顯示,男性真的比女性收到更多罰單,顯示樣本的差異,不代表母體也有會差異。

  • 若你想知道任一群組平均是否大於另外一個,就會採用雙尾檢定 (two-tailed test),這通常也是我們感興趣的比較。

  • 統計學家討論真實差異的方式是「這兩個樣本很可能取自不同的母體」。你我和研究員討論真實差異的方式很可能是「共和黨員與民主黨員有差異」或「這種藥物減低感冒的機率」。


  1. 中立的研究人員應該分析所有資料,包括正確與錯誤的預測,包括正面與負面結果。選擇性的報告也被稱為「出版效應」(publication effect),因為具有統計顯著的結果會被寫進期刊與圖書,而不具統計顯著的結果則無法得到版面。

  2. 對抗選擇性資料收集與選擇性報告的解方

解方

說明

運用常識

若特異功能真的存在,賭城已破產。

用新數據重新測試

請得到高分的受測者重新測試,通常測受結果,分數都會下降,當初的高分只是幸運猜測的選擇性報告而已。


  1. 常見臨床試驗法 (Ref: https://reurl.cc/kVWmDL )

單盲

雙盲

三盲

對於研究對象的分組及所施加的處理因素(如選用藥物)情況,只有研究者知道,而受試對象不知道

受試對象和試驗執行者(干預措施執行者及結果測量者) 雙方均不知分組情況,不知道試者接受的是哪一種干預措施

受試對象、試驗執行者和資料分析與報告者三方均不知道受試者接受的是哪一種干預措施,全部採用編號密封

方法簡單,容易進行

臨床試驗最常採用的一種盲法形式,可以有效避免受試對象和試驗執行者主觀的偏倚因素對試驗結果的影響

可以使偏倚減到最小的程度

單盲不能避免研究方主觀因素造成的影響。主管醫生可能通過許多方法去影響患者的療效, 比如,醫生對接受新療法的患者觀察特別仔細,護士對新療法組患者更加關心和熱情,這些都可能影響或暗示受試對象產生不同的反應。

有特殊副作用的藥物容易被破盲;雙盲試驗不適用於危重患者。

儘管三盲試驗是減少偏倚最有效的方法,但在實際工作中使用並不普遍。在許多臨床研究中,醫師既是試驗設計者與觀察者,也是資料分析和結果評價者,很難真正做到三盲。


  1. 假設檢定流程

假設檢定流程

說明

提出相關的虛無假設和對立假設

  • H0 與 H1

    • H0 , 虛無假設(null hypothesis):虛無假設通常由研究者決定,反應研究者對未知參數的看法 (虛無假設是「一般情形」)

    • H1, 對立假設(alternative hypothesis):對立假設通常反應了執行檢定的研究者對參數可能數值的另一種看法。 (對立假設是你想證明的「特殊觀點」,是你有興趣去確認的部分)

  • Type I Error 與 Type II Error

    • Type I Error:當 H0 為真,而拒絕 H0 所發生的錯誤。P(Type I error) = α,α 又稱為顯著水準(significance level)

    • Type II Error:當 H0 為假,而不拒絕 H0 所發生的錯誤(也就是 H1 為真,沒有接受 H1 為真所發生的錯誤)。P(Type II error) = β

選擇檢定統計量

  • Z 檢驗:

    • 當樣本數 n > 30,可以使用 z 分配 (常態分配)

  • T 檢驗

    • 當樣本數 n < 30,使用 t 分配

    • T分配相似於常態分配的曲線,不同的是他是依著「自由度」來改變分配的形狀。常態分配其實是T分配的的一個特例,當df=∞,T分配就是常態分配。實際的例子上,只要df=30,t分配就已經很接近常態分配。

  • 卡方檢驗

    • 使用卡方分配做檢定

    • 卡方檢定適用於探討兩個類別變數的相關,是實務上最常用到的方法之一。

選擇顯著水準並決定決策法則

  • Rejection Regions

    • 決策法則通常是決定一個接受域 (接受 H0) 與拒絕域 (接受 H1)。接受域與拒絕域的接點,稱為臨界點 (Critical Point)。

    • 單尾檢定 (One-tailed test)

      • 對於調查之理論方向是十分清楚,我們是應採用要單尾檢定。例如在語句當中有「是否高於?」、「是否低於?」、「是否優於?」、「是否劣於?」等等。

      • 對於變數在群體間的變化方向是單方向的,我們應當採取單尾t檢定。

    • 雙尾檢定 (Two-tailed test)

      • 對於理論變化的方向不很清楚,原則上則要採取雙尾檢定。例如:對於男、女性別的不一樣,對於捐血的態度,兩者的看法有什麼區別?凡是在調查語句當中採取兩者(或兩者以上)「有何區別?」、「有何不同」、「有什麼不一樣時」,是採取雙尾檢定 。

      • 對於變數之間在群體的變化方向,可能是雙方向的,我們就應採取雙尾t檢定

  • p-value

    • p-value 是在假設虛無假設為真的前提下,觀察到檢定統計量比取樣得到的值更極端的機率。p-value 越小,表示檢定的結果越顯著,越可以拒絕假設檢定中的虛無假設

比較樣本統計量與臨界值並下結論

  • 結果若是接受 H0,不表示 H0 為真,僅是樣本沒有足夠證據推翻他。

  • 結果若是拒絕 H0,即表示樣本提供足夠證據接受H1 為真。


  1. 單一樣本 t 檢定 (Ref: https://reurl.cc/1gLxEp )

分析資料

  • 抽樣數個學生身高:173, 168, 185, 176, 181, 168, 159, 159, 171, 165

  • 學校學生平均身高:172

檢驗流程

R 語言

> # 抽樣高三甲班級學生的身高

> height <- c(173, 168, 185, 176, 181, 168, 159, 159, 171, 165)

> # 全校平均身高

> height_avg <- 172

> # 常態性檢定 (p-value > 0.05 代表符合常態分佈)

> shapiro.test(height)


Shapiro-Wilk normality test


data:  height

W = 0.95916, p-value = 0.7762


> # 單一樣本 t 檢定(p-value > 0.05 沒有顯著證據顯示高三甲班級身高與全校平均身高有差異)

> t.test(height, mu = height_avg)


One Sample t-test


data:  height

t = -0.55203, df = 9, p-value = 0.5944

alternative hypothesis: true mean is not equal to 172

95 percent confidence interval:

 164.3532 176.6468

sample estimates:

mean of x 

    170.5


  1. 獨立雙樣本 t 檢定 (變異數相同) (Ref: https://reurl.cc/1gLxEp )

分析資料

  • 班級 A 的抽樣學生身高:173, 168, 185, 176, 181, 168, 159, 159, 171, 165

  • 班級 B 的抽樣學生身高:150, 189, 194, 171, 173, 188, 162, 180, 166, 170

檢驗流程

R 語言

> # == 獨立雙樣本 t 檢定 ==

> # 抽樣學生的身高

> class_a_height <- c(173, 168, 185, 176, 181, 168, 159, 159, 171, 165)

> class_b_height <- c(150, 189, 194, 171, 173, 188, 162, 180, 166, 170)

> # 常態性檢定 (p-value > 0.05 代表符合常態分佈)

> shapiro.test(class_a_height)


Shapiro-Wilk normality test


data:  class_a_height

W = 0.95916, p-value = 0.7762


> shapiro.test(class_b_height)


Shapiro-Wilk normality test


data:  class_b_height

W = 0.96751, p-value = 0.8669


> # F 檢定 - 檢查兩邊的母體變異數是否有差異 (p-value > 0.05 代表母體變異數相同的假設成立)

> var.test(class_a_height, class_b_height)


F test to compare two variances


data:  class_a_height and class_b_height

F = 0.39884, num df = 9, denom df = 9, p-value = 0.1871

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

 0.09906512 1.60570981

sample estimates:

ratio of variances 

         0.3988356 


> # 獨立雙樣本 t 檢定(變異數相同)(p-value > 0.05 沒有顯著證據顯示兩班的學生平均身高有差異異)

> t.test(class_a_height, class_b_height, var.equal = TRUE)


Two Sample t-test


data:  class_a_height and class_b_height

t = -0.74674, df = 18, p-value = 0.4649

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

 -14.491104   6.891104

sample estimates:

mean of x mean of y 

    170.5     174.3


  1. 獨立雙樣本 t 檢定 (變異數不同) (Ref: https://reurl.cc/1gLxEp )

分析資料

  • 班級 A 的抽樣學生身高:173, 168, 185, 176, 181, 168, 159, 159, 171, 165

  • 班級 B 的抽樣學生身高:174, 178, 175, 174, 170, 178, 175, 173, 175, 173

檢驗流程

R 語言

> # == 獨立雙樣本 t 檢定 ==

> # 抽樣學生的身高

> class_a_height <- c(173, 168, 185, 176, 181, 168, 159, 159, 171, 165)

> class_b_height <- c(174, 178, 175, 174, 170, 178, 175, 173, 175, 173)

> # 常態性檢定 (p-value > 0.05 代表符合常態分佈)

> shapiro.test(class_a_height)


Shapiro-Wilk normality test


data:  class_a_height

W = 0.95916, p-value = 0.7762


> shapiro.test(class_b_height)


Shapiro-Wilk normality test


data:  class_b_height

W = 0.9227, p-value = 0.38


> # F 檢定 - 檢查兩邊的母體變異數是否有差異 (p-value > 0.05 代表母體變異數相同的假設成立;p-value ≤ 0.05 代表母體變數不同)

> var.test(class_a_height, class_b_height)


F test to compare two variances


data:  class_a_height and class_b_height

F = 13.158, num df = 9, denom df = 9, p-value = 0.0007116

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

  3.268364 52.975705

sample estimates:

ratio of variances 

          13.15842 


> # 獨立雙樣本 t 檢定(變異數不同)(p-value > 0.05 沒有顯著證據顯示兩班的學生平均身高有差異異)

> t.test(class_a_height, class_b_height, var.equal = FALSE)


Welch Two Sample t-test


data:  class_a_height and class_b_height

t = -1.4191, df = 10.36, p-value = 0.1852

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

 -10.250745   2.250745

sample estimates:

mean of x mean of y 

    170.5     174.5


  1. 成對雙樣本 t 檢定 (Ref: https://reurl.cc/1gLxEp )

分析資料

  • 運動前體重:70, 87, 84, 76, 67, 66, 83, 46, 71, 88

  • 運動後體重:72, 91, 84, 79, 69, 69, 84, 48, 71, 90

檢驗流程

R 語言

> # == 成對雙樣本 t 檢定 ==

> # 長期運動前後的體重

> before <- c(70, 87, 84, 76, 67, 66, 83, 46, 71, 88)

> after <- c(72, 91, 84, 79, 69, 69, 84, 48, 71, 90)

> # 常態性檢定 (p-value > 0.05 代表符合常態分佈)

> shapiro.test(before)


Shapiro-Wilk normality test


data:  before

W = 0.90258, p-value = 0.2338


> shapiro.test(after)


Shapiro-Wilk normality test


data:  after

W = 0.90852, p-value = 0.271


> # 成對雙樣本 t 檢定)(p-value > 0.05 沒有顯著證據顯示運動前後體重有差異異;p-value ≤ 0.05 代表運動後對體重有差異)

> t.test(before, after, paired = TRUE)


Paired t-test


data:  before and after

t = -4.6696, df = 9, p-value = 0.001169

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

 -2.8204382 -0.9795618

sample estimates:

mean of the differences 

                   -1.9