Total Pageviews

2022/07/06

[閱讀筆記] The Math of Life and Death - ㊄ 錯的地方、錯的時間:數字系統如何演變、又如何讓我們失望 (Wrong Place, Wrong Time: When Our Number Systems Let Us Down)

 

  1. 我們目前使用的是「十進位制位值系統」(decimal place value system),所謂的「位值」(place value) 是指,不同位置的數字代表不同的數值;而「十進位」是指,同一個數字放在相鄰位置,代表的數值會比隔壁大或小十倍。不同位置間的相乘係數稱為進位基數,在十進位就是 10。

  2. 🖐️🖐️人類會廣泛採用十進位,而非其他進位,理由很簡單,我們要計數時,就是用十根手指來計數。

  3. 古羅馬系統的數字系統較為原始,共有七個符號如下表。古羅馬人意識到自己的數字系統效率低落,因此規定數字永遠要由左而右寫,從最大小到最小,這樣就能方便做數字加總。例如,MMXV = 1000 + 1000 + 10 + 5 = 2015;1888 年完成的波士頓公共圖書館,就刻著 MDCCCLXXXVIII ( = 1000 + 500 +100 +100 +100 + 50 + 10 +10 +10 + 5 + 1 +1 +1,足足有 13 個字元,是上個千禧世代最長的羅馬數字。

符號

I

V

X

L

C

D

M

數字

1

5

10

50

100

500

1000


  1. 雖然羅馬數字的使用歷史悠久,佔有優勢,但這套符號系統過於複雜,不利於高等數學的發展,因而從未通行世界。事實上,羅馬帝國的一項著名事蹟,就是沒有傑出的數學家,對數學研究沒有什麼貢獻

  2. 六十進制是以 60 為底數的進位制,源於公元前三千年至公元前兩千年的蘇美人,後傳至巴比倫,流傳至今仍用作紀錄時間、角度和地理座標。(https://reurl.cc/bnQAby)

六十進制的應用

  • 主要用以計算角度、座標,最常運用在時間計算上,60秒為一分,60分為一秒,但是在計算細部時仍是依照十進位計算。例如,"3:23:17"(三小時廿三分十七秒)即相當於3×602+23×601+17×600秒或3×600+23×60−1+17×60−2小時。當中的六十進制數字(即3、23和17)均以十進制數字寫出。

  • 相類似的是角度,一個圓形被均分成 360 度,每一度有 60 角分,一角分等於 60 角秒。

六十進制的優點

  • 由於 60 含有 2 、3 和 5 三個質因子,六十進制的數可被較多數整除,使得許多分數在該進制下是有限小數。例如,在分配貨幣時, 60 shekel 要分給 2 、 3 、 4 、 5 、 6 、 10 、 12 、 15 、 20 、 30 人,都能剛好分完,不會產生爭議。

  • 先進的 60 進位位值系統,讓蘇美人能做高等數學運算,像是解二次方程式 (ex. 分配農地的時候會遇到) 和三角函數。

巴比倫人繼續發揚光大

  • 📐 巴比倫人掌握一定的幾何知識,會把不規則的田地分成不同的長方形、三角形和梯形來計算面積。他們還掌握畢達哥拉斯定理,求得圓周和直徑的比率是3。在代數上,他們能解開三個未知數的方程式。

  • 貿易的需要,巴比倫人還制定了重量、長度、面積、體積、貨幣等的計算單位。古巴比倫人是古代最有成就的數學家。巴比倫人的幾何學也同樣取得了令人驚嘆的成就。(https://reurl.cc/95eagx)


  1. 我的兩個小孩讓我學到一項痛苦的教訓,分東西的時候一定要公平。我敢打包票,他們寧願兩個人都只有一個糖果,也不希望自己有 5 個、對方有 6 個。 如果你是以兒童為重點的產品製造商,以 12 個為一組的賣法就能讓客群最大化、也最不容易惹惱客戶,無論是要應付 1 、 2 、 3 、 4 、 6 、 12 個孩子的家庭都沒問題。

  2. 一如蘇美人用的 60 進位,十二進位優於十進位的主因,在於有更多的分數能夠「漂亮的終結」。例如,十進位制裡,1/3 會變成麻煩的無限小數 0.33333;十二進位裡,1/3 就是 4/12,小數寫成 0.4。十二進位制的擁護者認為,這套制度能減少四捨五入的必要性,解決許多目前十進位制所引起的捨入誤差 (rounding error)。(https://reurl.cc/NZk1eQ)

捨入誤差 (rounding error) 例子

🚀 1990年2月25日,海灣戰爭期間,在沙烏地阿拉伯宰赫蘭的愛國者飛彈防禦系統因浮點數捨入錯誤而失效,該系統的計算機精度僅有24位,存在0.0001%的計時誤差,所以有效時間闕值是20個小時。當系統運行100個小時以後,已經積累了0.3422秒的誤差。這個錯誤導致飛彈系統不斷地自我循環,而不能正確地瞄準目標。結果未能攔截一枚伊拉克飛毛腿飛彈,飛毛腿飛彈在軍營中爆炸,造成28名美國陸軍死亡。

🚀 1996年6月4日,在亞利安五號運載火箭發射後37秒,偏離預定軌道而炸毀。原因是軟體系統試圖將64位浮點數轉換為16位浮點數,造成溢出錯誤。

📉 1982 年溫哥華證券交易所指數剛成立不久,雖然市場表現強勁,指數卻有近兩年的時間持續暴跌。原因在於每次交易後,指數會無條件捨棄到小數點第三位,所以指數一直減少。當時每天有 3000 筆交易,就讓溫哥華證券交易指數每個月下跌 20 點,22個月以後,指數的值是 524.881,然而事實上應該是 1009.811。


  1. 千禧蟲危機 (Year 2000 Problem, Y2K) 是指由於電腦程式設計的一些問題,使得電腦在處理2000年1月1日以後的日期和時間時,可能會出現不正確的操作,從而可能導致一些敏感的工業部門 (比如電力,能源) 和銀行,政府等部門在2000年1月1日零點工作停頓甚至是發生災難性的結果。🏥 位於英國 Northern General Hospital 的唐氏症檢測中心,其 PathLAN 系統就是因為沒修復 Y2K 而導致憾事發生。

PathLAN 系統唐氏症檢測流程

因 Y2K 造成生日計算錯誤,導致偽陰性與憾事發生


  1. 二進制 (binary)

二進制說明

  • 在數學和數位電路中指以 2 為底數的記數系統,以 2 為基數代表系統是二進位制的。這一系統中,通常用兩個不同的數字 0 和 1 來表示。數字電子電路中,邏輯閘直接採用了二進制,因此現代的計算機和依賴計算機的裝置裡都用到二進制。

  • ptt joke: 「世界上只有 10 種人,一種懂二進位、一種不懂」意思就是「 1 乘 2 的 1 次方 + 0 乘 2 的 0 次方 = 2」這個 10 不是用十進位、而是用二進位去解讀的。(https://reurl.cc/yepOZl)

二進制造成的麻煩

  • 在波灣戰爭,愛國者導彈系統所使用的時間單位是 1/10 秒,雖然 1/10 用十進位制寫起來是簡潔有力的 0.1,但是轉成二進制後,卻變成無限循環小數 0.001100110011...,在 0.0 之後不斷重複 0011。由於沒有任何系統可以儲存無限多位的數字,所以飛毛腿系統只儲存 24 位數,因而產生捨入誤差 (rounding error) ,飛毛腿飛彈在軍營中爆炸,造成28名美國陸軍死亡。

  • 無論使用任何基數,都不能只用有限的位數就表達所有數字。如果採用不同基數,或許可以避免此次愛國者飛彈系統問題,但絕對會造成其他錯誤。雖然電腦系統常因二進位制而造成錯誤,但有鑑於耗能與可靠度上的優勢,二進位制仍是電腦最合理的選擇。然而,在現實社會使用二進位制,就會發現此優勢不存在。



2022/07/05

[閱讀筆記] The Math of Life and Death - ㊃ 不要相信真相:揭露媒體的數據假像 (Don't Believe the Truth: Debunking Media Statistics)

 

  1. 在這個假新聞盛行的時代,很難知道能相信誰。雖然很多人不相信,但是大多數的主流媒體仍維持著以事實為根據。然而,許多媒體所報導的「事實」卻仍有不同,問題就在於觀點的偏頗。例如,2017 年 Donald Trump 的稅改法案,不同的新聞台記者,給予不同的報導內容

新聞台

記者

報導內容

Fox

Ed Henry

重大勝利、總統迫切需要一場勝仗

MSNBC

Lawrence O’Donnell

將投票支持該法案的共和黨參議員稱為「我在國會見過最醜陋的豬」

CNN

Jake Tapper

史上國會通過的重大法案中,是否曾出現這種為獲得大眾支持的先例?


  1. 用刻意「遺漏」的手法,忽略其他數據,就能創造出完全扭曲的報導。有時候,研究本身不可靠,可能是樣本數太少、樣本不具代表性或帶有偏見,用了誘導性提問,又或選擇性報告 (selective reporting),都可能導致統計數據不可靠。

  2. 刻意將統計數據從脈絡中撥離,也是常見的愚弄手法。例如,某個疾病的案例增加 300%,但並未告訴你是從 1 名增加為 4 名,或是從 50 萬名變成 200 萬名,情境脈絡就是有這麼大的影響力。

  1. 生日問題 (birthday problem):一群人中,至少有兩個人生日相同機率有多高?雖然還要視人數多少而定,但這機率卻出乎意料地高。只要人數在 23 人以上,就有高於 50% 的機率。《Statistics Hacks

假設

  • 假設生日在人口中是均勻分布相同的 (uniformly distributed),表示一年中每一天出生的人數大致相同。

  • 雖然有四年一次的閏年發生,但是 2/29 出生的人很少,可忽略。

全機率法則 (Law of Total Probability)

此問題有兩個互斥 (mutually exclusive) 的可能結果:

  1. 至少有兩個人的生日相同

  2. 沒有人的生日相同


有時候,判斷一件事情不發生的機率,會比較容易。你可以發現,當群組大小增加越多,相同生日的機率快速上升:

  • 假設只有兩個人,兩位生日都不相同的機率是:364365=0.997,相同機率 = 1-0.997=0.003

  • 人數增加到三人,不相同機率:364365363365=0.992,相同機率=1-0.992=0.008 (機率增加 2.7 倍)

  • 人數增加到 10 人,不相同機率=364365363365362365361365360365359365358365357365356365355365=0.883,相同機率 = 1-0.883=0.117 (機率增加 39 倍)

  • 人數增加到 23 個人,不相同機率是 0.462,相同機率高達 0.538 (你的勝率大概一半)

  • 人數增加到 30 個人,不相同機率是 0.3,相同機率高達 0.7 (你的勝率高達七成!)

  • 人數增加到 50 個人,不相同機率是 0.03,相同機率高達 0.97 (你的勝率高達 97%!)


  1. 下次你去酒吧,可以用上述生日問題,來跟你朋友打賭,看能否找到兩個生日在同一天的人。在某場與朋友的聚會,我觀察當時共有 40 個顧客,經過上述的計算,我的勝率高達 89.12%,最終順利喝到免費啤酒。

  1. 恐攻新聞:2017/5/22 曼徹斯特發生恐攻,新聞報導這是因為 2013/5/22 也發生恐攻,這是經過精心策畫的恐攻計畫。

運用「生日問題」來破解上述恐攻新聞的論述

  • 從 2013 年 4 月到 2018 年 4 月這五年間,伊斯蘭恐怖攻擊分別對西方國家發動 39 次恐攻,如果所有事件都是隨機在一年當中任何一天發動攻擊。

  • 在這 39 次恐攻的期間,根據生日問題的算法,高達 87.82% 的機率會發生在同一天。要是這 39 次都發生在不同日期時,才要感到驚訝。


  1. Small sample fluctuation:廣告常會用百分比來展現使用前後效果,因為其樣本數很小,所以他會告訴你使用後 82% 有效,但是不會告訴你 樣本只有 34 個,其中 34 人中,有 28 個人有效,以免被發現樣本數少的令人尷尬。

  2. 發表偏差 (publication bias) 或稱為抽屜問題 (file drawer problem):是指使用統計顯著性作為發表與否的門檻,可能會大幅扭曲某些假設獲得的證據。投資人跟科學家一樣,只看到因巧合而成功的那次就信以為真,但是卻忽視為數眾多的失敗案例 (ex. 沒有通過檢定的案例就收進抽屜)。《how Not To Be Wrong:The Power of Mathematical Thinking

  3. 確認偏誤 (Confirmation bias) :是心理學上的一種現象,簡單的說,就是人們都會傾向於尋找能支持自己理論或假設的證據,忽略不能支持自己理論或假設的證據。這種選擇性的擷取資訊來強化自己理論或假設的現象,幾乎在每個人身上都看得到,但能意識到的人卻很稀少,更不要說能去盡力避免了。《Antifragile: Things That Gain from Disorder

  4. 小樣本是否告訴能告訴我們很多資訊,取決於我們如何做抽樣,所做的抽樣是否能代表全部母體,這就是所謂的統計顯著性 (statistical significance)。統計顯著性告訴我們所見是否為事實,而不是偶然發生的。《Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics

  5. 政治民調從業人員發現,必須更了解統計知識,才能得到準確結果;但政客卻發現,如果能更理解統計上的操控、挪用與舞弊,就能做盡壞事卻不受懲罰。

  6. 👮 🚶🏿‍♂️ 當「黑人的命也是命」(Black Lives Matter)」活動風起雲湧時,許多人主張警察遇到黑人嫌犯會直接開槍,而非逮捕。但是,根據統計數據顯示,美國黑人面對最大的危險,其實是其他黑人。

  1. 絕對風險 vs 相對風險

🥓 太陽報宣稱,有吃培根的人,增加 20% 機率罹患大腸癌

  • 太陽報宣稱的是相對風險 (A 組與 B 組比較):(6 - 5) / 5 = 0.2

  • 絕對風險:在暴露或為暴露於特定風險因素的情況下 (ex. 吃或不吃培根),出現某種預期結果 (ex. 大腸癌) 的人口比例,例如,每天食用 50g 的加工肉品,會讓罹患大腸癌的絕對風險從 5% 提升到 6%。


  1. 如果是一篇刻意危言聳聽的文章,你就會發現文章裡不會提到絕對風險。絕對風險通常只會是兩個小數字:一個是罹患該疾病或使用某療法的族群,另一個代表的是其他人口。如果你想找出標題背後的真相,可以做後續追蹤調查,看有沒有媒體提供絕對數據。

  2. 絕對風險 vs. 相對風險 (https://reurl.cc/yeqrDy)

絕對風險 

  • 指的是某件事發生的機率,無論是被閃電擊中、感染疾病或彩票中獎。 它可以表示您一天、一年或一生中的風險。

  • 例如,在美國,每 77 次車禍中就有一次是致命的。 因此,如果發生車禍,屬於致命車禍的絕對風險是 1/77 或 1.3%。 它一般不表示發生車禍的風險,而僅表示您遇到致命車禍的風險。

相對風險

  • 是一種比較兩種不同條件下的風險的方法。 它可以是從事不同活動的兩組人之間的比較,也可以是兩種不同條件下某件事風險的比較。

  •  研究發現,與在良好天氣開車相比,發生致命車禍的風險會隨著降雨量的增加而增加。 下毛毛雨時發生致命車禍的風險增加了 27%,即相對風險增加了 27%。 下大雨時發生致命車禍的風險是好天氣下的兩倍半,因此相對風險為 250%。


  1. 決策者會因資訊採採正面或反面的說法,而導致決策者做出南轅北轍的決定,這是因為你只用 System 1 來思考做決策,完全沒用到 System 2。《Thinking, Fast and Slow

  1. Fourfold pattern 《Thinking, Fast and Slow


Gains

Losses

可能性

【確定性效應(Certainty effect)】

 若面臨 95% 的機會來贏得 $10,000 的賭局,人們若有較大的機會去得到大額的回報,其會因為害怕失望而傾向風險趨避 (risk averse),人們願意接受確定期望值較低的回報 (sure gain)。

面臨 95% 的機會損失 $10,000,內心雖然是希望避免損失,但是心態卻是尋求風險 (risk seeking)落在此類別的通常都是有著不幸遭遇的人,其面臨的都是不利的選擇,卻接受擁有很高的失敗機率的選擇,冀望有微小的機會來避免巨大的損失

可能性

【可能性效應(Possibility Effect)】

 若面臨只有 1% 的機率贏得樂透頭獎,人們會因為頭獎的獎金非常誘人,而不管其極低的機率而購買,因為沒有買樂透就沒有贏得頭獎的機會,儘管其機率非常低。此時人們就會因為希望獲得頭獎,態度轉變成風險追求 (risk seeking),反而會拒絕其他期望值較高的選項。

【可能性效應(Possibility Effect)】

若面臨可能有 5% 的機會損失 $10,000,人們卻因為害怕鉅額損失而傾向風險規避 (risk averse),如人們常願意購買超過期望值的保險,深怕因為一些罕見意外或疾病造成自身損失,這也是保險公司的獲利之道。人們常購買過多的保險來預防罕見疾病,其實只是為了消除心中的憂慮,購買內心的平靜


  1. 只要測試結果與機率有關,就會受到回歸均值 (regression to the mean) 的影響。例如,真實的考試中,成績當然和熟練程度有關,但也帶點運氣的成分,要看你的事前複習是否剛好猜到考題。運氣成分在選擇題考試特別明顯,就算學生完全沒有相關知識,也能猜對答案

  2. 回歸是雙向的,因為它僅僅反映了「隨機波動」。身高很高的父母,通常子女會矮一點;身高很高的子女,通常父母會矮一些。這種現象不限於身高,回歸均值存在於無法靠觀測準確反映的任何遺傳特性中,包含身高、體重、智力、足部尺碼、頭髮密度等。異常的父母通常擁有不太正常的子女,異常的孩子通常擁有不太異常的父母。《Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics

  3. 當學術能力和運動能力等特點得不到完美測量時,觀測到的表現差異會誇大實際能力差異。表現最優秀的人與平均水準的距離,很可能不像看上去那樣遙遠,表現最糟的人也是如此。因此,他們隨後表現將回歸均值。回歸均值也不是意味能力像均值收斂、大家很快會有平均水準,它只意味著,極端表現在經歷好運和壞運的群體間輪換。回歸均值也不代表成功和不成功的公司會走向令人沮喪的平庸。《Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics

  4. 如果你不喜歡在某個重要的高風險考試上得到的分數,你該再考一次嗎?《Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics

均值迴歸 (regression toward the mean) 的現象

① 第一次得到最低分的人,第二次得到的分數會變高

② 第一次得到最高分的人,第二次得到的分數會變低

重考的決策準則

說明

① 你的分數

  • 你的分數 < mean,你第二次有很高的機率會得到較高的分數。再試一次,這次你的研讀時間也可能不用花那麼多。

  • 如果你的分數 > mean,只是沒有達到你想要的理想分數,不值得再花時間與精力去考第二次。

② 測驗可靠度

  • 當測驗可靠度 (reliability) 越高,代表機率在決定分數上所扮演的角色就越小

  • 大多數的標準化測驗都會公佈他們的可靠度水平,我們可以將測驗直插入到測量的標準誤 (standard error) 方程式中,大致了解同一個人從測驗到再次測驗之間可能的分數變動。Standard Error=Standard Deviation1-Reliability


  1. 雙盲測試 (double-blind test) 是公認的臨床試驗的黃金標準做法,若採用雙盲隨機對照試驗,對照組與治療組兩個病況改善的差異,就可以歸因於療法本身,排除回歸均值效應、安慰劑效應 (placebo effect)。

  2. 常見臨床試驗法 (Ref: https://reurl.cc/kVWmDL )

單盲

雙盲

三盲

對於研究對象的分組及所施加的處理因素(如選用藥物)情況,只有研究者知道,而受試對象不知道

受試對象和試驗執行者(干預措施執行者及結果測量者) 雙方均不知分組情況,不知道試者接受的是哪一種干預措施

受試對象、試驗執行者和資料分析與報告者三方均不知道受試者接受的是哪一種干預措施,全部採用編號密封

方法簡單,容易進行

臨床試驗最常採用的一種盲法形式,可以有效避免受試對象和試驗執行者主觀的偏倚因素對試驗結果的影響

可以使偏倚減到最小的程度

單盲不能避免研究方主觀因素造成的影響。主管醫生可能通過許多方法去影響患者的療效, 比如,醫生對接受新療法的患者觀察特別仔細,護士對新療法組患者更加關心和熱情,這些都可能影響或暗示受試對象產生不同的反應。

有特殊副作用的藥物容易被破盲;雙盲試驗不適用於危重患者

儘管三盲試驗是減少偏倚最有效的方法,但在實際工作中使用並不普遍。在許多臨床研究中,醫師既是試驗設計者與觀察者,也是資料分析和結果評價者,很難真正做到三盲


  1. 判斷統計數否遭操弄的檢查表

#

問題

1

是否願意提供背景變數與資料來源

2

是否提供調查的樣本數、提問內容、抽樣族群

3

是否採用不相等的表達、百分比,用的是相對數據而非絕對數據

4

是否有實驗組與對照組的試驗研究

5

如果本來就屬於極端值的統計數據,突然上升或下降,就要注意是否有回歸均值的狀況


  1. 只要發現某個統計數據沒頭沒腦的出現,就跟自問:①「比較對象是什麼?」、②「動機是什麼?」及 ③「這是完整事實嗎?」只要找出這三個問題的答案,已經能讓你在判斷數據是否真實的道路上邁進一大步。光是找到這三個問題的答案,就足以說明許多事。

  2. Darrell Huff 在 《How to Lie with Statistics》(別讓統計數字騙了你) 提到:「統計雖然擁有數學的基礎,但統計學的藝術成分並不少於科學成分。」到頭來,我們有多麼相信自己所碰上的統計數據,取決於那位藝術家所畫出的圖像有多完整。

  3. 《How to Lie with Statistics》提出的例子 https://reurl.cc/gzd3V4 

慎選樣本

  • 《時代雜誌》1950年代在評論紐約《太陽報》某項報導時,曾寫到「1924 年畢業的耶魯大學畢業生,平均年薪為 25,111 美元。」

  • 當時一般人平均年收入低於 10,000美元,兩者之間的平均年收入有兩倍以上的差距,代表只要考上耶魯,就是高薪保證。

  • 《時代雜誌》並沒有註明其調查的母體是哪些人,由於畢業了25年,光是要取得聯絡地址就十分的困難,其中較容易取到的不外乎是飛黃騰達的一群,而舉凡是較為落魄的一群,就幾乎取不到聯絡地址

選擇性平均

  • A公司為了能吸引更多的員工,便說自家公司的平均年薪是 20,000 美元,許多人聽到後便會想要到A公司上班,但其實在A公司中,許多人的年薪都不到 8,000 美元

  • 有時,平均數反而不是一個呈現整體狀況的好方法,特別是在有極端值的狀況,此時,如果不用中位數或是種數來呈現整體狀況,將有可能出現幾乎每個人都低於平均的狀況,如果使用中位數或眾數,提供的訊息會比使用平均數要好得多了。

刻意隱藏的小數字

  • 奧克拉荷馬市在 1890 ~ 1952 年的平均溫度為60.2℉。”此溫度相當於15.76 ℃,或許有些人會認為還滿涼爽的,但在此數據背後的事實是最高溫為113℉ (45℃),最低溫為 -17℉ (-27.22℃)。

  • 不如直接把最低、最高溫都寫出來,這樣反而比較清楚。

誇張的圖表

  • 因為圖片長度、寬度不同,進而影響到閱讀者的視覺感受,同時也讓閱讀者產生出不同的想法

似相關而非相關的數字

  • 在美西戰爭當中,海軍的死亡率是9%,而在同一時期中,紐約市的老百姓的死亡率則是16%,負責招募新兵的人後來就用這些數字來「證明」,加入海軍比不加入要安全。

  • 但這不全然是對的,因為海軍是由健康良好的人民組成的,老百姓裡卻包括嬰兒、老年人和病人,而這些人的死亡率較高,所以海軍的死亡率當然較低,所以這兩群人根本不能比較。

錯誤因果結論

  • 身高越高的人比身高越矮的人重,在大部分的時候,此關聯成立,但是也是可以找到身高 165 卻比身高 175 的重,所以我們可以說身高和體重之間有一定程度的正相關,在這一部分我們得到了一個結論:只要樣本小一點,你就有可能在你想像得到的任何兩種特質或事件之間,找到相當程度的關聯,既使一項關聯確實存在,而且也的確由因果關係造成,但是對單獨個案來說,這個關聯還是可能會完全不適用;當數字與結論放在一起時,不代表數字就可以支持這個結論,所以我們一定不能讓統計及數字攪亂了因果關係。

統計操控

  • 某年的投資金額的利潤從 3% 上升到 6%,可以說是上升3個百分點,也可說是上升100%。

  • 小數點和百分比能讓不確定的數字看起來精確,而任何根據稀少案例所計算出來的百分比,誤導的機會都不小,不如直接把原始數字寫出來,這樣反而比較清楚