2021/08/20

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十九章 何時相信,何時懷疑 (When to Be Persuaded and When to Be Skeptical)

 第十九章  何時相信,何時懷疑 (When to Be Persuaded and When to Be Skeptical)

被模式誘惑/具有誤導性的資料/變形的圖像/缺乏思考的計算/尋找混雜因素/手氣好/回歸平均值/平均定律/德州神槍手/當心經過剪裁的資料/缺乏理論的資料僅僅是資料而已/缺乏資料的理論僅僅是理論而已/美好的出生日

  1. 【模式誘惑】相關、趨勢和其他模式本身無法證明任何事情,如果沒有合理的解釋,任何模式僅僅是一種模式而已,每一個理論都須接受新資料的檢驗。

  1. 【選擇性偏誤 (selection bias):此偏誤發生於收納受試者時,「精挑細選」出的受試者無法代表母群體,「收納」與「未收納」到研究的對象有系統性差異 (systematic difference)。例如,二戰期間,結束轟炸任務的英國皇家空軍 (RAF, Royal Air Force) 戰機,受傷的彈孔多位於機翼與機尾,應加強防護這兩個位置;無法成功返航的都是被攻擊到駕駛艙與油箱位置的戰機,這兩個地方才是最需要加強防護的位置。沒看到的資料與看到的資料一樣重要,甚至更加重要。為了避免倖存者偏差,應當從過去的資料開始,並展望未來

  1. 留意變形的圖像,會誤導你判斷:視覺化圖表不僅是一種藝術,更是為沒耐性的人帶來樂趣。有用的視覺化圖表可以準確且一致性地展示資料,協助我們理解;垃圾圖表則會分散注意力,使我們感到困惑與煩躁。垃圾視覺化圖表檢查清單

垃圾視覺化圖表檢查清單

  • 時間是否有放在縱軸,若有,將其調整至橫軸

  • 縱軸的數值區間是否一致,若不一致,圖形就不準確

  • 橫軸的數值區間是否一致,若不一致,圖形就不準確

  • 縱軸與橫軸起始值是否從 0 開始,選擇較小的數值範圍,會放大線型起伏


  1. 【缺乏思考的計算,當心膚淺的比較】人有一種自然傾向,僅關注計算結果是否準確,而不深究這個計算是否正確與合理。隨著人口成長,許多人類活動也會跟著增長,包含看電視時間、吃橘子的人數、死亡人數等。資料間毫不相關,但它們之間存在統計相關性,因為它們都會隨著人口增加而增長。看電視不會導致我們吃橘子,吃橘子不會導致死亡。在統計學中,相關性 ≠ 因果關係。不管兩者相關性多高,在做出判斷前,都需要合理的解釋。(Ref: https://reurl.cc/4y7kYK )

準確度(accuracy)

精確度(precision)

重點在於「差距」,測量值的平均值跟實際值的差距,常用術語:誤差

重點在於「離散程度」,測量值的離散程度,常用術語:標準差、變異數


  1. 【小心干擾因素】干擾因素常存在於觀測性研究中,此時我們無法控制人們的選擇。干擾因素也存在於實驗環境中,因為研究人員有時也會忘記控制某個干擾因素。

Examples

說明

✈️ 阿拉斯加航空公司擁有優於另一家航空公司準點飛行紀錄,整體卻不如競爭對手

阿拉斯加航空公司擁有許多飛往 Seattle 的航班,常因當地天氣問題導致班機延誤。

👵 瑞典女性死亡率低於哥斯大黎加,但瑞典擁有較高的女性整體死亡率

因瑞典擁有更多的老年女性,老年人擁有較高的死亡率。

🏥 一項醫療手術對小型與大型腎結石的治療成功率,皆高於另一種術式,但整體成功率卻低於另一種術式

因為此一醫療手術常被用於治療大型腎結石,大型腎結石的成功率本來就較低。


  1. 【不要相信手氣說】我們喜好在資料中尋找模式,並為其編造理由,這是無法避免的事情。因此,我們很容易相信好手感與差手感的說法,進行相信手感會影響成功機率。記住,即使在隨機的拋硬幣實驗中,也會出現僅僅來自巧合的、引人注目的連續成功和連續失敗現象。好手感與差手感很可能確實存在,但它的差異比我們想像要小的許多每次投籃與之前沒有關係,只是出現巧合地連續現象優秀的狀態無法確保連續成功,糟糕的狀態也不保證連續失敗;優秀或糟糕的狀態也許僅是運氣而已

  2. 【回歸均值】當學術能力和運動能力等特點得不到完美測量時,觀測到的表現差異會誇大實際能力差異。表現最優秀的人與平均水準的距離,很可能不像看上去那樣遙遠,表現最糟的人也是如此。因此,他們隨後表現將回歸均值。回歸均值也不是意味能力像均值收斂、大家很快會有平均水準,它只意味著,極端表現在經歷好運和壞運的群體間輪換。回歸均值也不代表成功和不成功的公司會走向令人沮喪的平庸。

  3. 【平均定律】當你在玩 21 點 (blackjack) 時,是否曾經連續拿了很多手壞牌,使得你增加賭注,認為情勢隨時可能改變,你就陷入賭徒謬誤 (Gambler’s Fallacy),以為連續拿了好幾次壞牌,拿到好牌的機率會增加套用到純粹機率的遊戲上時,會是一連串「獨立事件」,事件間彼此毫無關係,每個個別的結果都與它之前的結果無關,這個事實經常被總結為「骰子沒有記憶」想改變運氣,通常需要改變自身的行為。面試一直被拒絕,並不會提高未來錄取機率,相反地,這只是更加證明此人不適合此職缺,應當考慮如何表現得更好,或者考慮申請不同工作。正負相抵只是一個笑話,不是值得信賴的規律。我們正在經歷壞運時,總會希望能轉運。我們的壞運可能不會持續,但發生在我們身上的壞事,並不會自動提高好事的可能性。(Ref: Statistics Hacks)

  4. 【德州神槍手謬誤 (Texas sharpshooter fallacy)】又稱為先射箭再畫靶,是一種因果謬誤,原用以形容流行病學上的集群錯覺,後衍伸泛指將統計上隨機產生的群集獨立出來,宣稱有統計顯著性的謬誤。通俗地講,就是在大量的數據/證據中刻意地挑選出對自己的觀點有利的數據/證據,而將其餘對自己不利的數據/證據棄之不用。(Ref: https://reurl.cc/v52z7a)

  5. 【當心經過剪裁的資料】每當有人出示奇特起迄時間點的資料時,都應保持懷疑。如果起迄點看是去是仔細研究資料後所做出的選擇,這樣的選擇很可能是為了扭曲歷史紀錄,用以獲得合乎邏輯的完美解釋。

  6. 【缺乏理論的資料,就只是資料而已】只要夠努力,即使面對隨機生成的資料,也可以找到模式,不管這種模式有多明顯,都需一個合理的理論來解釋,否則,就只是巧合而已。

  7. 【缺乏資料的理論,就只是理論而已】不管這一項研究是誰做的,都需要通過常識性檢驗,而且需要使用沒有被資料採集污染的無偏差資料來做檢驗。在經過可靠資料檢驗前,理論僅是一種猜測


2021/08/19

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十八章 增長的極限 (Theory without Data)

 第十八章  增長的極限 (Theory without Data)

窮途末路

  1. 複利效應:假設你投資 $1,000,年利率 10%,第一年,你的 $1,000 投資賺到 $100 利息。此後每年,你都會得到 $1,000 的 10%,外加已經賺得的利息的利息 (簡稱利滾利)。經過 50 年的利滾利,你的 $1,000 最終變成 $117,391,這就是複利強大到近乎神奇的原因。

  1. 缺乏數據的理論,就是以半真半假的理論作為事實,但卻從不檢驗它。如果一種理論沒有得到可靠的數據檢驗,它僅是猜測。對於未來數十年、甚至數百年的猜測,這種現象尤其明顯。

  2. 我們需要理論,也需要資料,不要僅僅被其中一種說服。如果有人光搜刮資料就發現某種模式,還需要合理的理論才行;另一方面,在跟可信的資料核對之前,理論僅僅是理論而已。

  3. 不管這一項研究是誰做的,都需通過常識性檢驗,且需使用沒有被資料採集污染的無偏差資料來做檢驗

2021/08/18

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十七章 超級投資者 (Betting the Bank)

 第十七章  超級投資者 (Betting the Bank)

寬客/收斂交易/我只看數據/在推土機面前撿硬幣/閃電崩盤

  1. 期貨市場實行每日結算制,當天虧損的投資者要把資金移轉給獲益投資者。經紀人要求客戶每日開盤時,帳戶裡有超出當天可能結算金額的資金 (稱為保證金)。如果你沒有錢,經紀人就會對你的期貨合約做平倉處理 (稱為轉讓契約)。

  2. 期貨 (Futures) 是一種契約,類似預售屋交易,買賣雙方現在約定好於未來特定時間點,九個月蓋好房後,以簽訂當時約定的房屋價格、數量、坪數等條件交易。簽約時只要先付 5% 款項做為未來到期時的擔保,就可以買賣約定標的之房屋契約。(Ref: https://reurl.cc/DvQZzd )

  1. 許多計量金融分析模型常陷入兩個陷阱:❶ 天真的相信歷史模式能對未來提供可靠的指引;❷ 依賴在數學上很方便、不切實際且非常危險的理論假設

  2. 近期出現的統計套利是計量金融的一種極端表現方式。和計量金融一樣,它在數學和統計上算得很精細,但也很危險,因為它依據不可靠的經驗假設和理論假設,許多假設常常無法通過最簡單的常識性測驗

  3. 凱因斯曾說:市場保持非理性狀態的時間,可能比你保持不破產的時間更長 (Markets can remain irrational longer than you can remain solvent.)。

  4. 在期貨市場,槓桿具有巨大的威力,統計理論算出來的關聯性是靠不住的。

  5. 2010/5/6 美股遭到閃電崩盤 (flash crash),電腦股票系統被不明原因觸發,連編寫程式的人也不了解電腦做的交易。道瓊工業指數在 5 分鐘內下跌近 600 點,電腦間在 15 秒內互相交易 27,000 份期貨合約,最終因期貨市場內建的保護機制,將所有交易中止 5 秒鐘,電腦的瘋狂交易就令人讓人難以置信的恢復正常。電腦的演算法是人撰寫的,電腦沒有常識,只會盲目地買進與賣出,因為這就是它的演算法要求它們做的事情

  6. 2013/8/30 P&G (寶僑) 股票發生迷你的閃電崩盤 (其他股票沒有受到影響),又是因為無法解釋的原因,在 1 秒鐘之內發生 200 次交易,股票瞬間下跌 5%,然後在 1 分鐘內又恢復正常。為什麼會發生這種事情?還是沒人知道。

  7. 不要把資金押在歷史模式,以及幾乎沒有合理解釋的關係上

2021/08/17

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十六章 彩券是一種智商稅 (Data Without Theory)

 第十六章  彩券是一種智商稅 (Data Without Theory)

目之所及/我們都將為IBM工作/股票是一種不錯的投資/跑贏大盤(或者說為什麼我喜愛包裝工隊)/傻瓜四股/反向頭肩/如何(不)中彩券/不會破裂的泡沫/南海泡沫/波克夏泡沫/真實股價

  1. 如果我們僅根據過去趨勢推測未來,而不去考慮這種趨勢是否有意義,得到的結論可能會與真相相去甚遠。缺乏理論的資料可能引發股市投機泡沫,或在沒有泡沫時創造出泡沫幻象。

  2. 股票是一種不錯的投資?

2004/10 ~ 2007/10 美國道瓊指數趨勢圖

  • 美股增長幅度平滑且穩定,波動不高,投資股票是個好主意

2007/10 ~ 2008/12 美國道瓊指數趨勢圖

  • 股價下跌 46%,投資股票是糟糕的投資

Summary

  • 短暫的時間區間,無法對變化無常的股價做出真實總結。

  • 需透過長期視角獲得均衡觀點。過去 100 年,股價平均年增長 4%。

  • 每當有人出示奇特起迄時間點的資料時,都應保持懷疑。如果起迄點看是去是仔細研究資料後所做出的選擇,這樣的選擇很可能是為了扭曲歷史紀錄,用以獲得合乎邏輯的完美解釋


  1. 股市基本上是隨機的,彩券也是完全隨機,但人們總是能從亂數中找到一些模式,並深信不移。只要有心尋找模式,一定能夠找到它。缺乏理論的數據雖然誘人,但卻具誤導性

  2. Los Angeles Times 於 1983 年刊出「Super Bowl 預測股市」的文章,其認為「假若當年的超級盃是由國家聯會 (NFL) 的球隊, 或是由原屬國家聯會轉入美國聯會 (AFL) 的球隊奪冠,則當年度的道瓊指數將會上漲; 反之,若由來自美國聯會的球隊獲勝,當年的道瓊指數則會下滑」。股市與美式足球兩者毫無關聯,此指標的準確率僅是一個可笑的巧合。想出超級盃指標的人,只是想以幽默的方式說明兩者相關性,兩者並無因果關係,只是構思者沒想到有人會接受這個理論。

  3. 股市交易年鑑的執行總監傑德布朗便嘲弄地表示,真要以這種牽強附會的方式來解盤,他也可以發明個「世界大賽指標」,只要紐約洋基隊贏得世界大賽,股市就會大漲,但其中的學問不過就是:洋基隊已拿過二十六次的世界大賽冠軍盃了。(Ref: https://reurl.cc/nnbrq6 )

  4. 除了超級盃指標外,華爾街上還流傳著不少古怪趣味的分析指標。例如始於 1941 年的「裙邊指標」( Hemline Indicator ), 由女性流行時裝的裙子長短來判斷股市前景。裙子愈短,股市愈熱;反之,裙子愈長,就是市場看跌的時候。(Ref: https://reurl.cc/nnbrq6 )

  5. 技術分析的核心是確定股價模式,以便預測未來價格。這些模式被貼上標籤,如支撐線、阻力線、雙頂、雙底等,使這些分析看起來很合理。不過,多項研究發現,雖然技術分析擁有這些吸引人的標籤與術語,但它幾乎沒有任何價值,除了幫技術分析師與股票經紀人帶來佣金

  6. 在網路公司的泡沫中,大多數人沒有使用令人信服的理論去衡量股價過高、高好或過低。相反地,當眾人看到股價上漲,都會編造理由,只為解釋正在發生的事情

  7. 對投機者而言,股票價值是其他人願意支付的價格,他們要做的是猜測別人願意為你今天買的東西支付多少錢,這就是所謂的 Greater Fool Theory (最大笨蛋理論):以虛高的價格購買某樣東西,希望能以更高的價格賣給更傻的傻瓜。當投機者失去信心,不認為這樣東西的價格能繼續上升,泡沫就破裂。投機行為的關鍵是「判斷有沒有比自己更大的笨蛋」,只要自己不是最大的笨蛋,那麼自己就是贏家

  1. 南海泡沫事件是英國在1720年春天到秋天之間發生的經濟泡沫,與同年的密西西比泡沫事件及1637年的鬱金香狂熱並稱歐洲早期「三大經濟泡沫」,「經濟泡沫」一語即源於南海泡沫事件。英國議會成員 James Milner 在南海泡沫中破產,他悲嘆地說:「的確,我們一定會遇到滅頂之災,但是,它比我預測的早來兩個月。」(Ref: https://reurl.cc/9ZA65Y )

  2. 根據財訊雜誌 2020/9/9 報導:「封裝材料及設備通路商長華電材,在今年6月19日股東會決議通過修改公司章程,將原有的股票面額由新台幣10元變更為1元,公司資本額則維持6.388億元,因此,發行股數由原來的6388萬股增加至6.388億股,亦即流通在外股數變為原來的10倍。」如此降低股票面額與增加流通股數,實務上稱之為「股份分割」,是將一股份分割成較多的股份,例如一股分割為十股,股東所持股份將按此比例增加。主要目的在於降低每股股價來增加投資人的投資意願由於股價調低的關係,你的持股總市值不會改變。至於未來股價是否能夠繼續長期上漲?主要還是要看公司的未來獲利前景而定。(Ref: https://reurl.cc/V3ZMbb )

  3. 如果兩件事物彼此沒有合理的關聯,那麼兩者的比較是沒有說服力的。為什麼股價增長應該與消費品價格同步?這種虛假的關聯性,不值得一看。看到股票分析理論時,問問自己:研究的人在考察資料與計算前,是否擁有清晰且具體的理論?理論是否經過未受污染資料的檢驗?資料是否遭到過濾或選擇性丟棄?

2021/08/16

[閱讀筆記] Standard Deviations: Flawed Assumptions... - 第十五章 特異功能真的存在嗎?(Don’t Confuse Me the Facts )

 第十五章  特異功能真的存在嗎?(Don’t Confuse Me the Facts )

超感知覺/胡迪尼的挑戰/一個家庭對超自然現象的著迷

  1. 所謂的 ESP 是獨立於傳統五感 (sight, sound, touch, taste, and smell) 以外的感官知覺。大多數的科學家都同意 ESP 實際存在的證據不多,但他們可能是錯的。你或你的朋友或你養的狗可能有 ESP,而現代就是找出它們的最佳時代。

Zener Cards

  • Zener Cards 由五種符號組成,猜對機率會是 15=.2

  • 極端結果在樣本大小增加時,會出現劇烈下降的狀況。舉例來說,只猜 25 次時,命中率 40% 的機率約 1%;當猜 100 次時,機率劇烈下降至 .00001%。

  • 以命中率來說,20% 屬正常,24% 就高於平均,但也沒有到非常不尋常,但何時會認為不尋常?此時會運用 t 檢定

  • 顯著性檢定會產生機率值 (p-value, probability value),如果 p-value 很小,說明原假設情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,p-value 越小,我們拒絕 H0 的理由越充分。大家習慣採用 0.05 當作一個臨界,當研究的 p 值小於這個臨界值的時候就宣稱研究結果達到統計顯著,也就是說大家普遍同意接受 5%犯錯的可能性


  1. 哪個比較好?人與人之間真有差異嗎?如果你想要為你的這些關於最好、最多或最少的信念找出一些真實的證據,你可以使用獨立 t 檢定 (independent t test) 來支持你的論點。例如,M&M 巧克力綠色比藍色好吃、女人永遠不會收到罰單等。t-test 源自於啤酒統計學家為了判斷啤酒製造過程中,裝滿整部升降機的穀物品質,因無法檢查所有穀物,故設法檢視隨機從較大的穀物母體抽出的一個小型樣本的方法。假設我們想驗證,女生永遠不會收到超速罰單:


罰單數

Group 1 (male)

Group 2 (female)

平均數 (mean)

1.71

1.35

變異數 (variance)

0.71

0.25

樣本大小 (sample size)

15

15

計算過程

t=Mean of Group 1 - Mean of Group 2Variance for Group 1Sample Size of Group 1+Variance for Group 2Sample Size of Group 2=1.71-1.350.7115+0.2515=1.42

< 5% 的機率偶然發生的 t 值


兩個群組加起來的樣本數

臨界 t 值

4

4.30

20

2.10

30

2.05

60

2.00

100

1.00

1.96


  • t 檢定所回答的問題是,兩個樣本間發現的任何差異是否也存在與母體中,或是出於抽樣誤差。若 t 值 > 臨界值,我們就可以宣稱母體間有一種真正的差異存在。

  • 因為 t = 1.42 < 2.05,沒有足夠證據顯示,男性真的比女性收到更多罰單,顯示樣本的差異,不代表母體也有會差異。

  • 若你想知道任一群組平均是否大於另外一個,就會採用雙尾檢定 (two-tailed test),這通常也是我們感興趣的比較。

  • 統計學家討論真實差異的方式是「這兩個樣本很可能取自不同的母體」。你我和研究員討論真實差異的方式很可能是「共和黨員與民主黨員有差異」或「這種藥物減低感冒的機率」。


  1. 中立的研究人員應該分析所有資料,包括正確與錯誤的預測,包括正面與負面結果。選擇性的報告也被稱為「出版效應」(publication effect),因為具有統計顯著的結果會被寫進期刊與圖書,而不具統計顯著的結果則無法得到版面。

  2. 對抗選擇性資料收集與選擇性報告的解方

解方

說明

運用常識

若特異功能真的存在,賭城已破產。

用新數據重新測試

請得到高分的受測者重新測試,通常測受結果,分數都會下降,當初的高分只是幸運猜測的選擇性報告而已。


  1. 常見臨床試驗法 (Ref: https://reurl.cc/kVWmDL )

單盲

雙盲

三盲

對於研究對象的分組及所施加的處理因素(如選用藥物)情況,只有研究者知道,而受試對象不知道

受試對象和試驗執行者(干預措施執行者及結果測量者) 雙方均不知分組情況,不知道試者接受的是哪一種干預措施

受試對象、試驗執行者和資料分析與報告者三方均不知道受試者接受的是哪一種干預措施,全部採用編號密封

方法簡單,容易進行

臨床試驗最常採用的一種盲法形式,可以有效避免受試對象和試驗執行者主觀的偏倚因素對試驗結果的影響

可以使偏倚減到最小的程度

單盲不能避免研究方主觀因素造成的影響。主管醫生可能通過許多方法去影響患者的療效, 比如,醫生對接受新療法的患者觀察特別仔細,護士對新療法組患者更加關心和熱情,這些都可能影響或暗示受試對象產生不同的反應。

有特殊副作用的藥物容易被破盲;雙盲試驗不適用於危重患者。

儘管三盲試驗是減少偏倚最有效的方法,但在實際工作中使用並不普遍。在許多臨床研究中,醫師既是試驗設計者與觀察者,也是資料分析和結果評價者,很難真正做到三盲。


  1. 假設檢定流程

假設檢定流程

說明

提出相關的虛無假設和對立假設

  • H0 與 H1

    • H0 , 虛無假設(null hypothesis):虛無假設通常由研究者決定,反應研究者對未知參數的看法 (虛無假設是「一般情形」)

    • H1, 對立假設(alternative hypothesis):對立假設通常反應了執行檢定的研究者對參數可能數值的另一種看法。 (對立假設是你想證明的「特殊觀點」,是你有興趣去確認的部分)

  • Type I Error 與 Type II Error

    • Type I Error:當 H0 為真,而拒絕 H0 所發生的錯誤。P(Type I error) = α,α 又稱為顯著水準(significance level)

    • Type II Error:當 H0 為假,而不拒絕 H0 所發生的錯誤(也就是 H1 為真,沒有接受 H1 為真所發生的錯誤)。P(Type II error) = β

選擇檢定統計量

  • Z 檢驗:

    • 當樣本數 n > 30,可以使用 z 分配 (常態分配)

  • T 檢驗

    • 當樣本數 n < 30,使用 t 分配

    • T分配相似於常態分配的曲線,不同的是他是依著「自由度」來改變分配的形狀。常態分配其實是T分配的的一個特例,當df=∞,T分配就是常態分配。實際的例子上,只要df=30,t分配就已經很接近常態分配。

  • 卡方檢驗

    • 使用卡方分配做檢定

    • 卡方檢定適用於探討兩個類別變數的相關,是實務上最常用到的方法之一。

選擇顯著水準並決定決策法則

  • Rejection Regions

    • 決策法則通常是決定一個接受域 (接受 H0) 與拒絕域 (接受 H1)。接受域與拒絕域的接點,稱為臨界點 (Critical Point)。

    • 單尾檢定 (One-tailed test)

      • 對於調查之理論方向是十分清楚,我們是應採用要單尾檢定。例如在語句當中有「是否高於?」、「是否低於?」、「是否優於?」、「是否劣於?」等等。

      • 對於變數在群體間的變化方向是單方向的,我們應當採取單尾t檢定。

    • 雙尾檢定 (Two-tailed test)

      • 對於理論變化的方向不很清楚,原則上則要採取雙尾檢定。例如:對於男、女性別的不一樣,對於捐血的態度,兩者的看法有什麼區別?凡是在調查語句當中採取兩者(或兩者以上)「有何區別?」、「有何不同」、「有什麼不一樣時」,是採取雙尾檢定 。

      • 對於變數之間在群體的變化方向,可能是雙方向的,我們就應採取雙尾t檢定

  • p-value

    • p-value 是在假設虛無假設為真的前提下,觀察到檢定統計量比取樣得到的值更極端的機率。p-value 越小,表示檢定的結果越顯著,越可以拒絕假設檢定中的虛無假設

比較樣本統計量與臨界值並下結論

  • 結果若是接受 H0,不表示 H0 為真,僅是樣本沒有足夠證據推翻他。

  • 結果若是拒絕 H0,即表示樣本提供足夠證據接受H1 為真。


  1. 單一樣本 t 檢定 (Ref: https://reurl.cc/1gLxEp )

分析資料

  • 抽樣數個學生身高:173, 168, 185, 176, 181, 168, 159, 159, 171, 165

  • 學校學生平均身高:172

檢驗流程

R 語言

> # 抽樣高三甲班級學生的身高

> height <- c(173, 168, 185, 176, 181, 168, 159, 159, 171, 165)

> # 全校平均身高

> height_avg <- 172

> # 常態性檢定 (p-value > 0.05 代表符合常態分佈)

> shapiro.test(height)


Shapiro-Wilk normality test


data:  height

W = 0.95916, p-value = 0.7762


> # 單一樣本 t 檢定(p-value > 0.05 沒有顯著證據顯示高三甲班級身高與全校平均身高有差異)

> t.test(height, mu = height_avg)


One Sample t-test


data:  height

t = -0.55203, df = 9, p-value = 0.5944

alternative hypothesis: true mean is not equal to 172

95 percent confidence interval:

 164.3532 176.6468

sample estimates:

mean of x 

    170.5


  1. 獨立雙樣本 t 檢定 (變異數相同) (Ref: https://reurl.cc/1gLxEp )

分析資料

  • 班級 A 的抽樣學生身高:173, 168, 185, 176, 181, 168, 159, 159, 171, 165

  • 班級 B 的抽樣學生身高:150, 189, 194, 171, 173, 188, 162, 180, 166, 170

檢驗流程

R 語言

> # == 獨立雙樣本 t 檢定 ==

> # 抽樣學生的身高

> class_a_height <- c(173, 168, 185, 176, 181, 168, 159, 159, 171, 165)

> class_b_height <- c(150, 189, 194, 171, 173, 188, 162, 180, 166, 170)

> # 常態性檢定 (p-value > 0.05 代表符合常態分佈)

> shapiro.test(class_a_height)


Shapiro-Wilk normality test


data:  class_a_height

W = 0.95916, p-value = 0.7762


> shapiro.test(class_b_height)


Shapiro-Wilk normality test


data:  class_b_height

W = 0.96751, p-value = 0.8669


> # F 檢定 - 檢查兩邊的母體變異數是否有差異 (p-value > 0.05 代表母體變異數相同的假設成立)

> var.test(class_a_height, class_b_height)


F test to compare two variances


data:  class_a_height and class_b_height

F = 0.39884, num df = 9, denom df = 9, p-value = 0.1871

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

 0.09906512 1.60570981

sample estimates:

ratio of variances 

         0.3988356 


> # 獨立雙樣本 t 檢定(變異數相同)(p-value > 0.05 沒有顯著證據顯示兩班的學生平均身高有差異異)

> t.test(class_a_height, class_b_height, var.equal = TRUE)


Two Sample t-test


data:  class_a_height and class_b_height

t = -0.74674, df = 18, p-value = 0.4649

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

 -14.491104   6.891104

sample estimates:

mean of x mean of y 

    170.5     174.3


  1. 獨立雙樣本 t 檢定 (變異數不同) (Ref: https://reurl.cc/1gLxEp )

分析資料

  • 班級 A 的抽樣學生身高:173, 168, 185, 176, 181, 168, 159, 159, 171, 165

  • 班級 B 的抽樣學生身高:174, 178, 175, 174, 170, 178, 175, 173, 175, 173

檢驗流程

R 語言

> # == 獨立雙樣本 t 檢定 ==

> # 抽樣學生的身高

> class_a_height <- c(173, 168, 185, 176, 181, 168, 159, 159, 171, 165)

> class_b_height <- c(174, 178, 175, 174, 170, 178, 175, 173, 175, 173)

> # 常態性檢定 (p-value > 0.05 代表符合常態分佈)

> shapiro.test(class_a_height)


Shapiro-Wilk normality test


data:  class_a_height

W = 0.95916, p-value = 0.7762


> shapiro.test(class_b_height)


Shapiro-Wilk normality test


data:  class_b_height

W = 0.9227, p-value = 0.38


> # F 檢定 - 檢查兩邊的母體變異數是否有差異 (p-value > 0.05 代表母體變異數相同的假設成立;p-value ≤ 0.05 代表母體變數不同)

> var.test(class_a_height, class_b_height)


F test to compare two variances


data:  class_a_height and class_b_height

F = 13.158, num df = 9, denom df = 9, p-value = 0.0007116

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

  3.268364 52.975705

sample estimates:

ratio of variances 

          13.15842 


> # 獨立雙樣本 t 檢定(變異數不同)(p-value > 0.05 沒有顯著證據顯示兩班的學生平均身高有差異異)

> t.test(class_a_height, class_b_height, var.equal = FALSE)


Welch Two Sample t-test


data:  class_a_height and class_b_height

t = -1.4191, df = 10.36, p-value = 0.1852

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

 -10.250745   2.250745

sample estimates:

mean of x mean of y 

    170.5     174.5


  1. 成對雙樣本 t 檢定 (Ref: https://reurl.cc/1gLxEp )

分析資料

  • 運動前體重:70, 87, 84, 76, 67, 66, 83, 46, 71, 88

  • 運動後體重:72, 91, 84, 79, 69, 69, 84, 48, 71, 90

檢驗流程

R 語言

> # == 成對雙樣本 t 檢定 ==

> # 長期運動前後的體重

> before <- c(70, 87, 84, 76, 67, 66, 83, 46, 71, 88)

> after <- c(72, 91, 84, 79, 69, 69, 84, 48, 71, 90)

> # 常態性檢定 (p-value > 0.05 代表符合常態分佈)

> shapiro.test(before)


Shapiro-Wilk normality test


data:  before

W = 0.90258, p-value = 0.2338


> shapiro.test(after)


Shapiro-Wilk normality test


data:  after

W = 0.90852, p-value = 0.271


> # 成對雙樣本 t 檢定)(p-value > 0.05 沒有顯著證據顯示運動前後體重有差異異;p-value ≤ 0.05 代表運動後對體重有差異)

> t.test(before, after, paired = TRUE)


Paired t-test


data:  before and after

t = -4.6696, df = 9, p-value = 0.001169

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

 -2.8204382 -0.9795618

sample estimates:

mean of the differences 

                   -1.9