Total Pageviews

2021/09/08

[閱讀筆記] HOW NOT TO BE WRONG - 第6章:破解聖經密碼 (The Baltimore Stockbroker And The Bible Code)

 

  1. 聖經密碼,也稱作 Torah 密碼 (妥拉,英文:Torah,可泛指猶太教的全部律法教條,尤指《猶太聖經》的首五卷書),最初指的是在《希伯來聖經·創世記》的開頭每隔50個字母跳讀,就可以拼出「Torah」一詞(意指《摩西五經》,即《創世記》、《出埃及記》、《利未記》、《民數記》及《申命記》),另外在《出埃及記》、《民數記》和《申命記》中亦是如此。這種現象後來被稱做等距字母序列(Equidistant letter sequences),簡稱「ELS」。ELS 密碼,由於 The Bible Code 一書的出版而聞名於世,書中作者聲稱這些密碼可以預言將來。此論點受到各方專家和許多宗教團體強烈質疑,且也不被教廷所認可。(Ref: https://reurl.cc/Dv5W9j )

  1. 等距字母序列(Equidistant letter sequences)的原理:從聖經第一個字母開始,尋找一種可能的跳躍序列,從1、2、3個字母,依序到跳過數千個字母,看能拼出什麼字,然後再從第2個字母開始,周而復始。一直到聖經最後一個字母。例如Rips ExplAineD thaT eacH codE is a Case Of adDing Every fourth or twelth or fiftieth to form a word得出隱含訊息為READ THE CODE(Ref: https://reurl.cc/Dv5W9j )

  2. 股票經紀人的套路:預測漲跌 10 次皆正確的機率是 (12)10=11024,表面上 10 次都矇對的機率為乎極微。但是以股票經紀人的角度看事情,局面就大為改觀。假設共有 10,240 人會收到他的股市預測廣告信,但是信件內容不太相同,在第一輪,5,120 人會收到上漲預測、另一群 5,120 人會收到下跌預測,收到錯誤預測的那群人就不會繼續收到廣告信;下一週 (第二輪),2,560 人會收到上漲預測、另一群 2,560 人會收到下跌預測,收到錯誤預測的那群人就不會繼續收到廣告信。經過 10 週,會剩下 10 個幸運兒,覺得這位股票經紀人料事如神,股票經紀從這 10 個人收取大量學費與佣金,但是對這 10 個人而言,過去的預測成績無法保證未來成果

  1. 共同基金也是用相同的養、套、殺招式:連續股價預測成功 10 次、共同基金連續 12 個月獲利 10%,確實都是不太可能發生的事情。因為遇上不太可能發生的事,所以會產生誤判。宇宙很巨大,但只要你想注意奇妙而不太可能發生的事,你就會發現它們。不太可能發生的事,其實發生的不少

  1. 面對投資,最好還是遵循你聽膩的老生常談,「多吃蔬菜、多走樓梯」式的財務健全方案;放棄追尋魔力系統或有金手指的導師,應該把錢放到大而無趣卻收費低廉的指數型基金,然後把它拋諸腦後

  2. 英國統計學家 R. A. Fisher 曾說:即使出現機會是百萬分之一,它還是會出現。無論發生在我們身上時會多令我們吃驚,它出現的頻率既不會多於、也不會少於它該有的出現頻率

  3. 一群人中,至少有兩個人生日相同機率有多高?雖然還要視人數多少而定,但這機率卻出乎意料地高。只要人數在 23 人以上,就有高於 50% 的機率。(Ref: Statistics Hacks)

假設

  • 假設生日在人口中是均勻分布相同的 (uniformly distributed),表示一年中每一天出生的人數大致相同。

  • 雖然有四年一次的閏年發生,但是 2/29 出生的人很少,可忽略。

全機率法則 (Law of Total Probability)

此問題有兩個互斥 (mutually exclusive) 的可能結果:

① 至少有兩個人的生日相同

② 沒有人的生日相同


有時候,判斷一件事情不發生的機率,會比較容易

你可以發現,當群組大小增加越多,相同生日的機率快速上升:

  • 假設只有兩個人,兩位生日都不相同的機率是:364365=0.997,相同機率 = 1-0.997=0.003

  • 人數增加到三人,不相同機率:364365363365=0.992,相同機率=1-0.992=0.008 (機率增加 2.7 倍)

  • 人數增加到 10 人,不相同機率=364365363365362365361365360365359365358365357365356365355365=0.883,相同機率 = 1-0.883=0.117 (機率增加 39 倍)

  • 人數增加到 23 個人,不相同機率是 0.462,相同機率高達 0.538 (你的勝率大概一半)

  • 人數增加到 30 個人,不相同機率是 0.3,相同機率高達 0.7 (你的勝率高達七成!)

  • 人數增加到 50 個人,不相同機率是 0.03,相同機率高達 0.97 (你的勝率高達 97%!)


  1. 做些計算或是使用 spreadsheet software,你就能找出各種「自發性」友善賭注。(Ref: Statistics Hacks)

原則一

計算一個事件跨越多次機會的發生機率的實際公式所依據的概念是,找出一個事件不會發生的比例,然後為每次額外的「擲骰子」把這個比例成以自身,用 1.0 減去結果,就能得到這個事件會發生的機率。


舉例來說,我跟其他兩個人生日月份相同的機率有多少?

  • 假設生日均勻分配於每個月,故機率=112

  • 其他兩個人跟我生日不同月份的機率 = 11121112=0.841,相同的機率=1-0.841=0.159

原則二

要讓某個人接受賭注,或讓觀眾對任何給定的結果發生感到驚訝,其可能性要讓觀眾感覺必須很小,例如,一群人生日相同的機率。

在單次機會中,不可能發生的機率的確很小,不過,如果你有多次機會,該事件發生的機率就會增加,而且斜率很陡

  • 【從字母表挑選字母】假設我從字母表挑選五個字母,我會挑選六個人,請他們隨機挑一個字母,我打賭至少會有一個人所挑選的字母會跟我五個字母之一相同

    • 單一次失敗的機率 = 26-526=0.808

    • 六次都失敗的機率 = 0.8086=0.278,我的勝率 = 1-0.278=.722

  • 【隨機挑選數字】假設我從 1 ~ 100 隨機挑選 10 個數字,我隨機選 10 個人,請他們從 1 ~ 100 隨機挑選 1 個數字,打賭至少會有一個人所挑選的數字會跟我挑選的 10 個數字之一相同

    • 單一次失敗機率 = 100-10100=0.9

    • 10 次都失敗的機率 = 0.910=0.349,我的勝率 = 1-0.349=0.651

2021/09/07

[閱讀筆記] HOW NOT TO BE WRONG - 第5章:派餅比盤子還大 (Move Pie Than Plate)

 

  1. 數字為負數時,免談百分比:依據勞工統計局的數字,2012 與 2019 年的就業人口是 -740,000 人,女性就業人口是 -683,000 人,總統候選人 Mitt Romney 指出,Barack Obama 主政時期,損失的就業人口有 92.30% 是女性 (-683,000-740,000=0.923)。

  1. 上述指控似是而非,差異數字是工作損失的「淨值」,我們不知道這三年間,創造及損失多少工作,只知道淨值為 -740,000。工作淨值有時是正數,有時是負數,所以拿來計算百分比是有風險的。計算機很好用,但是當你清楚知道要計算什麼以後,計算機才能發揮功效

  2. 真實世界的問題通常不是數學應用題,真實問題會是:「經濟衰退的後續影響,是否對勞動人口裡的女性特別糟糕?如果是的話,有多少程度是因為 Barack Obama 的政策所造成?」你的計算機沒有能直接按出答案的按鍵,為得到有意義的解答,你必須知道數字以外的東西。


2021/09/06

[閱讀筆記] HOW NOT TO BE WRONG - 第4章:相當於死了多少美國人?(How Much Is That In Dead Americans?)

 

  1. 2000 ~ 2005 年間,以色列人口約 700 萬,遭恐怖份子殺害人數共 1,074 人,約佔人口 0.015%。把線性主義推到極致,根據正比例的論證,可以找到全世界任何地方相當於 1,074 以色列人的人數,例如,法國會被殺害 10,341 人、日本會被殺害 19,241 人、美國會被殺害 50,658 人。

  1. 1994 年盧安達人口有 11%遭屠殺,若以上述邏輯,若發生在 1940 年代的歐洲,會比猶太人受到的大屠殺遭九倍,你會這樣做比例的類比嗎?這種類比是否合理?

  2. 實施數學保健法的重要規則是:如果你要現場檢驗某種數學方法,試著用幾個不同途徑去計算相同的東西,若得到不同的答案,此數學方法很可能是有問題的。

  3. 組成比例 (proportion)、百分比 (percentage)、比例 (ratio)、比率 (rate) (Ref: https://reurl.cc/XeKan7 )

組成比例 (proportion)

  • 「proportion」 的意思是 「份額、比例」,它既可以是一個百分數,也可以是分數。

  • 如果有人問你:「人體內水分的比例是多少?」 你既可以回答說:「大約佔三分之二。」 也可以回答說:「大約佔 67%。」 

百分比 (percentage)

  • 「百分比」,它只能以百分數的形式來呈現一個數字。

  • 如果有人問你:「人體內水分的百分比是多少?」 你只能用百分數來回答:「大約佔 67%。」 

比例 (ratio)

  • 表示 「兩個事物之間的比例」

  • 例如,在做沾醬的時候,醋和醬油的比例

比率 (rate)

  • 指的是 「某件事情在特定時間內發生的頻率」 或者 「事情的某個方面在特定時間內可能出現的比率」。

  • 例如,就業率、出生率、成功率、離婚率。


  1. 當你丟 10 次硬幣,可能獲得 80% 正面的機會;但是當你丟 1,000 次硬幣,只有一丁點機會獲得 51% 正面的機會。這就是大數法則 (the law of large number),反覆進行實驗後,結果會趨近於平均值。

小樣本

大樣本

變異大、結果容易出現極端值

變異小、結果趨近於平均值

可正面結果能只出現 20%或 80%

正面結果比例趨近於 50%

在迷你小學裡,若出現幾個天賦好或學習困難的學生,就會使學校的平均分數出現劇烈震盪。

在規模較大的學校裡,極端分數會溶解於整體的大平均裡,不太會在最終成績裡凸顯它的影響。

若調查人口較少的縣市,會像蘆葦般搖擺,計算癌症罹患最高或最低比率 (rate),人口較少的縣市會名列前茅

若調查人口較多縣市,如同老橡樹不會低頭,計算癌症死亡人數會名列前茅


  1. 縮小抽樣誤差 (sampling error) 最好的辦法就是增加樣本大小 (sample size)。這也是所謂的大數法則 (Law of Large Numbers),人們發現,在重複試驗中,隨著試驗次數的增加,事件發生的頻率趨於一個穩定值;人們同時也發現,在對物理量的測量實踐中,測定值的算術平均也具有穩定性。大數法則的描述只出現或採樣都是「隨機 (randomly)」 的情況下成立

  2. 大數法則不是用來平衡已經發生的狀況,而是把已經發生的狀況用新數據稀釋,直到過去的紀錄無足輕重,終於可以完全加以忘卻為止。例如,已經生三個女兒,第四胎是男生的機率依舊是 ½;丟擲硬幣已經連續出現五次正面,下次是反面的機率依舊是 ½,因為錢幣沒有記憶,不可能記住之前的結果

  3. 一場戰爭是否比另一場更糟糕,不是一個犧牲人數是否大於另一場犧牲人數的同性質問題。如果你準備想像恐怖攻擊殺死 26 個人的意義,不要想像在世界另一端發生的,而是想像這個事件就在你生活的城市發生的。那麼,你不需要計算機,就可得到數學上與道德上無懈可擊的結論。

2021/09/05

[閱讀筆記] HOW NOT TO BE WRONG - 第3章:每個人都肥胖 (Everyone Is Obese)

 

  1. 線性迴歸 (linear regression) 是社會科學最仰賴的統計工具,每當你讀到報紙說,表親越多的人越快樂、開設 Burger King 越多的國家風氣越敗壞、美國人收入每增加 3% 投給共和黨的人會增加 3% 等,這些都是利用線性迴歸在預測趨勢。

  2. 我們可以很容易且聰明地,將已經發生的事情勾勒出其因果關係 (cause-and-effect relationship),這是線性思考 (linear thinking) 的心智模型 (if A then B);然而,當我們要預測未來時,通常都不管用。(Ref: Learn to Think in Systems)

  3. simple linear regression 是度量看不見的東西或預測尚未發生的事件結果的強大工具。藉由統計學的幫忙,你就能在只看到另一個變數表現時,準確猜測某人在目標變數上可能的 scores。迴歸分析 (Regression Analysis) 是利用一組自變數 (或稱預測變數、獨立變數、predictor variable) 對某一因變數 (或稱準則變數、criterion variable) 建立關係式以便做為預測的依據,它也可以做為評估自變數對因變數的效用。迴歸的主要目的是做預測,只用一個自變數來預測應變數稱為 simple linear regression;用一個以上的自變數來預測因變數稱為 complex linear regression。

變數

變數類型

平均數

標準差

ACT Scores

自變數 (predictor variable)

20.10

2.38

GPA Scores

因變數 (criterion variable)

2.98

0.68

Weight=correlation coefficientCriterion Standard DeviationPredictor Standard Deviation=0.55.682.38=.16

Constant = Criterion Mean-(WeightPredictor Mean)=2.98-(.1620.1)=-.24

Criteria=Constant+(PredictorWeight)

Predict GPA=-.24+(ACT Score.16)

申請人

ACT Score

Predict GPA

Melissa

26

-.24+(26.16)=3.90

Bruce

14

-.24+(14.16)=2.00


  1. regression analysis 的適用性 (Ref: Statistics Hacks)

適用性

說明

適用於

  • 兩個變數彼此相關 (correlate),你就可以用一個相關變數來預估另一個變數與平均的變異 (包含平均值、標準差和相關係數等資訊)。

不適用於

  • 若兩個變數間的相關性不完美,預測的準確性也不會完美:由於沒有完美的 1.0 相關性存在,你可以用估計的標準差 (standard error of estimate) 來判斷你的誤差大小。

  • 變數的關係強度的分佈不是線性:若變數的關係強度的分佈不是線性,預測就會產生很大的誤差。

  • 收集的資料沒有代表性:若一開始收集來建立迴歸方程式中的那些資料沒有代表性,預測結果也會有錯。


  1. 模型如果太簡單 (ex. 單因素模型所形成的直線),可能無法表現資料的主要型態;模型如果太複雜 (ex. 九因素模型),又會太容易受到取得資料點的影響,這就是統計學家提到的 overfit (過度配適)。在機器學習領域有個十分重要的事實,使用因素較多、較複雜的模型,未必能得到較好的預測結果,複雜型帶來的問題,反而使我們的預測變得更糟

  1. 若樣本資料極具代表性,採用最複雜的模型會是個好辦法;若樣本資料有偏差,採用最複雜的模型就會容易遭受雜訊 (noise) 影響,遭遇過度配適 (overfit) 問題。overfit 就是資料的偶像崇拜,因為我們只注意到測量的資料,反而忽視真正重要的東西

過度配適 (overfit) 例子

說明

① 依據歷史資料預測股市

忽視與未來股價有關的因素。

② 寄送電子郵件時,猜測收件者如何解讀

忽視收件者的解讀方式。

③ 企業的激勵制度

不同的激勵制度,可能會產生各種無法預料的結果;一家公司的 CEO 重視什麼,公司就會朝那個方向發展。

④ 工廠只重視生產指標

忽視維修與修理,最後形成重大災難。(導引員工認真地完成不當目標)

⑤ 重視網頁廣告曝光度,網頁四處是廣告

讀者不堪其擾,遠離此類網頁


  1. 以統計學家的觀點,overfit 是對已知實際資料過度敏感的症狀 (ex. 學生很熟悉會考的方向),解決方法很直接,抑制想找出完全符合模型複雜度的念頭。在統計學和機器學習中,Lasso 演算法對因素權重施加向下的壓力,最多可使它變成 0,只有對結果有明顯影響的因素才能繼續保留在方程式中,因此,一個 overfit 的九因素模型,可簡化到只剩下少數幾個重要因素,方程式也因此變得簡單穩定,增強統計模型的預測準確性和可解釋性。