Total Pageviews

2021/09/10

[閱讀筆記] HOW NOT TO BE WRONG - 第8章:歸渺法 (Reductio ad Unlikely)

 

  1. 矛盾證法或歸謬法 (Reductio ad absurdum):首先歸就是順著他的意思,謬就是反駁錯誤的。先布置一個與事實相反的想像世界,讓假的命題 (H) 設定為真,然後看著它在真實世界的壓力中被壓垮,這種論證法已透過時間考驗,甚至可回溯至亞里斯多德時代。

  1. 在統計學,虛無假設的顯著性檢定,可以將其視為歸謬法的模糊版,或許可說是歸渺法 (reductio ad unlikely)。

  1. 顯著性檢定會產生機率值 (p-value, probability value),如果 p-value 很小,說明原假設情況的發生的概率很小,而如果出現了,根據小概率原理 (small probability principle),我們就有理由拒絕原假設,p-value 越小,我們拒絕 H0 的理由越充分。在大家習慣採用 0.05 當作一個臨界,當研究的 p 值小於這個臨界值的時候就宣稱研究結果達到統計顯著,也就是說大家普遍同意接受 5%犯錯的可能性

  2. 「不可能」與「不太可能」是兩件事,不可能代表永遠不會發生,不太可能代表還是可能會發生。


2021/09/09

[閱讀筆記] HOW NOT TO BE WRONG - 第7章:死魚不會讀心 (Dead Fish Don’t Read Minds)

 

  1. 某人出書宣揚不吃玉米可以減肥且解決惱人濕疹問題,假設有數千人閱讀與是行書中的建議。可能上千讀者中,單純因為隨機因素,確實體重變輕且濕疹狀況改善。於是有些讀者會上網發表不吃玉米的成功見證文章,但其他遵循這種飲食法且減肥無成效的人,並沒有上網發表反對意見。

  2. 如上一章節提到的股票經紀人騙術,就像收到連續正確預測股價的廣告信而樂不可支,卻忽視有更多預測失敗的信件被丟進垃圾桶。

  1. 許多科學問題都歸結到「是或非」:某種現象是否會發生?某些新藥是否有效,或毫無作用?「毫無作用」的選項稱為「虛無假設」。換句話說,假設你研究的介入行為沒有任何效用,這種假設就是虛無假設 (null hypothesis)。若虛無假設成立,會讓研究人員徹夜難眠;若無法排除虛無假設,就無法確定是否踏上醫藥突破的路徑,還是摸錯了代謝路徑。研究者誠心希望虛無假設遭揚棄,新藥的效力才能得證。

  2. 所謂的顯著性 (significance) 檢定,並不是在量度重要性。當我們在檢驗一個新藥是否有效,虛無假設是用來斷言新藥沒效,因此排除虛無假設,就是判斷藥物效用不為 0;但是這個效用可能非常小,小到一般非數學相關的人,絕對不會說它具有任何重要性或意義。

  3. p 值問題 (Ref: https://reurl.cc/mqmxLV )

p 值越小表示該研究的結果越好嗎?

  • p 值越小,虛無假設為真實的可能性越低,推翻虛無假設可能犯錯的機會越低,因此宣稱研究有統計顯著差異的肯定程度越高

  •  p 值跟研究所要探討的臨床效果是否重要之間不是絕對的關係。一個 p 值顯著的結果,臨床上的效果卻可能很微小,20%比 21%臨床上只是很微小的差別,但只要研究樣本數夠大,統計檢定就會達到顯著。

樣本數越大,研究的 p 值一定越小嗎?

  • p 值是根據母體真正效果沒有差異的「虛無假設」來計算,所以:

    • 如果母群體真正效果「沒有差異」,研究結果的 p 值將隨機出現在 0 ~ 1 之間,跟樣本數大小沒有關係。

    • 可是只要母群體的真正效果「有差異」,研究結果的 p 值就會隨著研究樣本數增加而越來越小。

結論

  • 當幾個相同題目的類似研究,出現不一致的結果,且沒有特別的理由可以解釋彼此之間的差別時,那麼這些差異就有可能是抽樣誤差所造成。

  • 統合分析 (meta analysis) 透過整合這些研究研究降低抽樣誤差。一個研究有可能因為偶然的機會,結果出現比較小的 p 值,因而造成我們對研究的誤判。可是當好幾個題目相同的類似研究都出現比較小的 p 值時,結果純粹只是因為抽樣隨機出現的可能性就降低了,因此我們對結果判讀的肯定程度就隨著升高。這也就是為什麼一系列結果一致的研究,所提供證據的強度較高的原因。

  • 在母群體有差別的情況下,研究結果可以正確得到統計顯著的機會,稱為統計的“檢定力"(power)。檢定力是正確推翻虛無假說的機率。研究設計的目的之一是希望在可行的範圍內,盡量提高檢力,具體的策略就是設計合理的樣本數來達成


  1. 嚴格來說,虛無假設幾乎總是錯誤的。當你在病人血管注射強效藥劑時,很難說這種藥劑與病人罹患食道癌、血栓症或口臭的機率完全無關,因為身體是複雜的回饋影響與控制系統。你做的每件事,可能會促成癌症或避免癌症。原則上,只要你的實驗設計夠強,就能找出某種情形。但是通常那些效應都極端微小,可以安全地加以忽略。我們看到它們,並不代表真的有影響。

  2. 顯著性檢定只是工具,就像望遠鏡一樣,有些工具比其他工具更為強大。例如,用天文研究等級的望遠鏡看火星,可以看到它的衛星;但是,用一般看風景用的望遠鏡卻看不到。不過,火星的衛星一直在那兒。檢定方法的意義,只是用來告訴我們效應存在,而非斷定效應的大小或重要性

  3. 統計研究如果不夠細緻,以致於無法偵測到預期的現象,就稱為「低鑑別率」(underpowered)。就像你用一般看風景用的望遠鏡來觀察行星,不管行星是否存在,你都看不到,不如不看。高鑑別度的研究,有可能因極不重要的微小效應而讓你嚇壞;低鑑別度研究,又會讓你忽略因為方法太弱而檢測不出的微小效應。

  4. 我們很容易相信好手感與差手感的說法,進行相信手感會影響成功機率。記住,即使在隨機的拋硬幣實驗中,也會出現僅僅來自巧合的、引人注目的連續成功和連續失敗現象。好手感與差手感很可能確實存在,但它的差異比我們想像要小的許多每次投籃與之前沒有關係,只是出現巧合地連續現象優秀的狀態無法確保連續成功,糟糕的狀態也不保證連續失敗;優秀或糟糕的狀態也許僅是運氣而已

  5. 籃球選手在投中三分球後,下一球傾向在更遠的地方投球。換句話說,手感火燙可能「自我抵銷」,也就是當球員自我感覺良好時,自以為手感火燙,因過度自信而投出一些不該投的球。在證券市場也有類似現象,因一時投資獲利,誤以為自己是股神,因過度自信而去追求風險。

  6. 穩定得分的籃球球員,雖然沒有享受到手感火燙期,也沒有慘遭手感冰冷期,但偶爾也會連進五顆三分球。

2021/09/08

[閱讀筆記] HOW NOT TO BE WRONG - 第6章:破解聖經密碼 (The Baltimore Stockbroker And The Bible Code)

 

  1. 聖經密碼,也稱作 Torah 密碼 (妥拉,英文:Torah,可泛指猶太教的全部律法教條,尤指《猶太聖經》的首五卷書),最初指的是在《希伯來聖經·創世記》的開頭每隔50個字母跳讀,就可以拼出「Torah」一詞(意指《摩西五經》,即《創世記》、《出埃及記》、《利未記》、《民數記》及《申命記》),另外在《出埃及記》、《民數記》和《申命記》中亦是如此。這種現象後來被稱做等距字母序列(Equidistant letter sequences),簡稱「ELS」。ELS 密碼,由於 The Bible Code 一書的出版而聞名於世,書中作者聲稱這些密碼可以預言將來。此論點受到各方專家和許多宗教團體強烈質疑,且也不被教廷所認可。(Ref: https://reurl.cc/Dv5W9j )

  1. 等距字母序列(Equidistant letter sequences)的原理:從聖經第一個字母開始,尋找一種可能的跳躍序列,從1、2、3個字母,依序到跳過數千個字母,看能拼出什麼字,然後再從第2個字母開始,周而復始。一直到聖經最後一個字母。例如Rips ExplAineD thaT eacH codE is a Case Of adDing Every fourth or twelth or fiftieth to form a word得出隱含訊息為READ THE CODE(Ref: https://reurl.cc/Dv5W9j )

  2. 股票經紀人的套路:預測漲跌 10 次皆正確的機率是 (12)10=11024,表面上 10 次都矇對的機率為乎極微。但是以股票經紀人的角度看事情,局面就大為改觀。假設共有 10,240 人會收到他的股市預測廣告信,但是信件內容不太相同,在第一輪,5,120 人會收到上漲預測、另一群 5,120 人會收到下跌預測,收到錯誤預測的那群人就不會繼續收到廣告信;下一週 (第二輪),2,560 人會收到上漲預測、另一群 2,560 人會收到下跌預測,收到錯誤預測的那群人就不會繼續收到廣告信。經過 10 週,會剩下 10 個幸運兒,覺得這位股票經紀人料事如神,股票經紀從這 10 個人收取大量學費與佣金,但是對這 10 個人而言,過去的預測成績無法保證未來成果

  1. 共同基金也是用相同的養、套、殺招式:連續股價預測成功 10 次、共同基金連續 12 個月獲利 10%,確實都是不太可能發生的事情。因為遇上不太可能發生的事,所以會產生誤判。宇宙很巨大,但只要你想注意奇妙而不太可能發生的事,你就會發現它們。不太可能發生的事,其實發生的不少

  1. 面對投資,最好還是遵循你聽膩的老生常談,「多吃蔬菜、多走樓梯」式的財務健全方案;放棄追尋魔力系統或有金手指的導師,應該把錢放到大而無趣卻收費低廉的指數型基金,然後把它拋諸腦後

  2. 英國統計學家 R. A. Fisher 曾說:即使出現機會是百萬分之一,它還是會出現。無論發生在我們身上時會多令我們吃驚,它出現的頻率既不會多於、也不會少於它該有的出現頻率

  3. 一群人中,至少有兩個人生日相同機率有多高?雖然還要視人數多少而定,但這機率卻出乎意料地高。只要人數在 23 人以上,就有高於 50% 的機率。(Ref: Statistics Hacks)

假設

  • 假設生日在人口中是均勻分布相同的 (uniformly distributed),表示一年中每一天出生的人數大致相同。

  • 雖然有四年一次的閏年發生,但是 2/29 出生的人很少,可忽略。

全機率法則 (Law of Total Probability)

此問題有兩個互斥 (mutually exclusive) 的可能結果:

① 至少有兩個人的生日相同

② 沒有人的生日相同


有時候,判斷一件事情不發生的機率,會比較容易

你可以發現,當群組大小增加越多,相同生日的機率快速上升:

  • 假設只有兩個人,兩位生日都不相同的機率是:364365=0.997,相同機率 = 1-0.997=0.003

  • 人數增加到三人,不相同機率:364365363365=0.992,相同機率=1-0.992=0.008 (機率增加 2.7 倍)

  • 人數增加到 10 人,不相同機率=364365363365362365361365360365359365358365357365356365355365=0.883,相同機率 = 1-0.883=0.117 (機率增加 39 倍)

  • 人數增加到 23 個人,不相同機率是 0.462,相同機率高達 0.538 (你的勝率大概一半)

  • 人數增加到 30 個人,不相同機率是 0.3,相同機率高達 0.7 (你的勝率高達七成!)

  • 人數增加到 50 個人,不相同機率是 0.03,相同機率高達 0.97 (你的勝率高達 97%!)


  1. 做些計算或是使用 spreadsheet software,你就能找出各種「自發性」友善賭注。(Ref: Statistics Hacks)

原則一

計算一個事件跨越多次機會的發生機率的實際公式所依據的概念是,找出一個事件不會發生的比例,然後為每次額外的「擲骰子」把這個比例成以自身,用 1.0 減去結果,就能得到這個事件會發生的機率。


舉例來說,我跟其他兩個人生日月份相同的機率有多少?

  • 假設生日均勻分配於每個月,故機率=112

  • 其他兩個人跟我生日不同月份的機率 = 11121112=0.841,相同的機率=1-0.841=0.159

原則二

要讓某個人接受賭注,或讓觀眾對任何給定的結果發生感到驚訝,其可能性要讓觀眾感覺必須很小,例如,一群人生日相同的機率。

在單次機會中,不可能發生的機率的確很小,不過,如果你有多次機會,該事件發生的機率就會增加,而且斜率很陡

  • 【從字母表挑選字母】假設我從字母表挑選五個字母,我會挑選六個人,請他們隨機挑一個字母,我打賭至少會有一個人所挑選的字母會跟我五個字母之一相同

    • 單一次失敗的機率 = 26-526=0.808

    • 六次都失敗的機率 = 0.8086=0.278,我的勝率 = 1-0.278=.722

  • 【隨機挑選數字】假設我從 1 ~ 100 隨機挑選 10 個數字,我隨機選 10 個人,請他們從 1 ~ 100 隨機挑選 1 個數字,打賭至少會有一個人所挑選的數字會跟我挑選的 10 個數字之一相同

    • 單一次失敗機率 = 100-10100=0.9

    • 10 次都失敗的機率 = 0.910=0.349,我的勝率 = 1-0.349=0.651

2021/09/07

[閱讀筆記] HOW NOT TO BE WRONG - 第5章:派餅比盤子還大 (Move Pie Than Plate)

 

  1. 數字為負數時,免談百分比:依據勞工統計局的數字,2012 與 2019 年的就業人口是 -740,000 人,女性就業人口是 -683,000 人,總統候選人 Mitt Romney 指出,Barack Obama 主政時期,損失的就業人口有 92.30% 是女性 (-683,000-740,000=0.923)。

  1. 上述指控似是而非,差異數字是工作損失的「淨值」,我們不知道這三年間,創造及損失多少工作,只知道淨值為 -740,000。工作淨值有時是正數,有時是負數,所以拿來計算百分比是有風險的。計算機很好用,但是當你清楚知道要計算什麼以後,計算機才能發揮功效

  2. 真實世界的問題通常不是數學應用題,真實問題會是:「經濟衰退的後續影響,是否對勞動人口裡的女性特別糟糕?如果是的話,有多少程度是因為 Barack Obama 的政策所造成?」你的計算機沒有能直接按出答案的按鍵,為得到有意義的解答,你必須知道數字以外的東西。


2021/09/06

[閱讀筆記] HOW NOT TO BE WRONG - 第4章:相當於死了多少美國人?(How Much Is That In Dead Americans?)

 

  1. 2000 ~ 2005 年間,以色列人口約 700 萬,遭恐怖份子殺害人數共 1,074 人,約佔人口 0.015%。把線性主義推到極致,根據正比例的論證,可以找到全世界任何地方相當於 1,074 以色列人的人數,例如,法國會被殺害 10,341 人、日本會被殺害 19,241 人、美國會被殺害 50,658 人。

  1. 1994 年盧安達人口有 11%遭屠殺,若以上述邏輯,若發生在 1940 年代的歐洲,會比猶太人受到的大屠殺遭九倍,你會這樣做比例的類比嗎?這種類比是否合理?

  2. 實施數學保健法的重要規則是:如果你要現場檢驗某種數學方法,試著用幾個不同途徑去計算相同的東西,若得到不同的答案,此數學方法很可能是有問題的。

  3. 組成比例 (proportion)、百分比 (percentage)、比例 (ratio)、比率 (rate) (Ref: https://reurl.cc/XeKan7 )

組成比例 (proportion)

  • 「proportion」 的意思是 「份額、比例」,它既可以是一個百分數,也可以是分數。

  • 如果有人問你:「人體內水分的比例是多少?」 你既可以回答說:「大約佔三分之二。」 也可以回答說:「大約佔 67%。」 

百分比 (percentage)

  • 「百分比」,它只能以百分數的形式來呈現一個數字。

  • 如果有人問你:「人體內水分的百分比是多少?」 你只能用百分數來回答:「大約佔 67%。」 

比例 (ratio)

  • 表示 「兩個事物之間的比例」

  • 例如,在做沾醬的時候,醋和醬油的比例

比率 (rate)

  • 指的是 「某件事情在特定時間內發生的頻率」 或者 「事情的某個方面在特定時間內可能出現的比率」。

  • 例如,就業率、出生率、成功率、離婚率。


  1. 當你丟 10 次硬幣,可能獲得 80% 正面的機會;但是當你丟 1,000 次硬幣,只有一丁點機會獲得 51% 正面的機會。這就是大數法則 (the law of large number),反覆進行實驗後,結果會趨近於平均值。

小樣本

大樣本

變異大、結果容易出現極端值

變異小、結果趨近於平均值

可正面結果能只出現 20%或 80%

正面結果比例趨近於 50%

在迷你小學裡,若出現幾個天賦好或學習困難的學生,就會使學校的平均分數出現劇烈震盪。

在規模較大的學校裡,極端分數會溶解於整體的大平均裡,不太會在最終成績裡凸顯它的影響。

若調查人口較少的縣市,會像蘆葦般搖擺,計算癌症罹患最高或最低比率 (rate),人口較少的縣市會名列前茅

若調查人口較多縣市,如同老橡樹不會低頭,計算癌症死亡人數會名列前茅


  1. 縮小抽樣誤差 (sampling error) 最好的辦法就是增加樣本大小 (sample size)。這也是所謂的大數法則 (Law of Large Numbers),人們發現,在重複試驗中,隨著試驗次數的增加,事件發生的頻率趨於一個穩定值;人們同時也發現,在對物理量的測量實踐中,測定值的算術平均也具有穩定性。大數法則的描述只出現或採樣都是「隨機 (randomly)」 的情況下成立

  2. 大數法則不是用來平衡已經發生的狀況,而是把已經發生的狀況用新數據稀釋,直到過去的紀錄無足輕重,終於可以完全加以忘卻為止。例如,已經生三個女兒,第四胎是男生的機率依舊是 ½;丟擲硬幣已經連續出現五次正面,下次是反面的機率依舊是 ½,因為錢幣沒有記憶,不可能記住之前的結果

  3. 一場戰爭是否比另一場更糟糕,不是一個犧牲人數是否大於另一場犧牲人數的同性質問題。如果你準備想像恐怖攻擊殺死 26 個人的意義,不要想像在世界另一端發生的,而是想像這個事件就在你生活的城市發生的。那麼,你不需要計算機,就可得到數學上與道德上無懈可擊的結論。