Total Pageviews

2021/09/05

[閱讀筆記] HOW NOT TO BE WRONG - 第3章:每個人都肥胖 (Everyone Is Obese)

 

  1. 線性迴歸 (linear regression) 是社會科學最仰賴的統計工具,每當你讀到報紙說,表親越多的人越快樂、開設 Burger King 越多的國家風氣越敗壞、美國人收入每增加 3% 投給共和黨的人會增加 3% 等,這些都是利用線性迴歸在預測趨勢。

  2. 我們可以很容易且聰明地,將已經發生的事情勾勒出其因果關係 (cause-and-effect relationship),這是線性思考 (linear thinking) 的心智模型 (if A then B);然而,當我們要預測未來時,通常都不管用。(Ref: Learn to Think in Systems)

  3. simple linear regression 是度量看不見的東西或預測尚未發生的事件結果的強大工具。藉由統計學的幫忙,你就能在只看到另一個變數表現時,準確猜測某人在目標變數上可能的 scores。迴歸分析 (Regression Analysis) 是利用一組自變數 (或稱預測變數、獨立變數、predictor variable) 對某一因變數 (或稱準則變數、criterion variable) 建立關係式以便做為預測的依據,它也可以做為評估自變數對因變數的效用。迴歸的主要目的是做預測,只用一個自變數來預測應變數稱為 simple linear regression;用一個以上的自變數來預測因變數稱為 complex linear regression。

變數

變數類型

平均數

標準差

ACT Scores

自變數 (predictor variable)

20.10

2.38

GPA Scores

因變數 (criterion variable)

2.98

0.68

Weight=correlation coefficientCriterion Standard DeviationPredictor Standard Deviation=0.55.682.38=.16

Constant = Criterion Mean-(WeightPredictor Mean)=2.98-(.1620.1)=-.24

Criteria=Constant+(PredictorWeight)

Predict GPA=-.24+(ACT Score.16)

申請人

ACT Score

Predict GPA

Melissa

26

-.24+(26.16)=3.90

Bruce

14

-.24+(14.16)=2.00


  1. regression analysis 的適用性 (Ref: Statistics Hacks)

適用性

說明

適用於

  • 兩個變數彼此相關 (correlate),你就可以用一個相關變數來預估另一個變數與平均的變異 (包含平均值、標準差和相關係數等資訊)。

不適用於

  • 若兩個變數間的相關性不完美,預測的準確性也不會完美:由於沒有完美的 1.0 相關性存在,你可以用估計的標準差 (standard error of estimate) 來判斷你的誤差大小。

  • 變數的關係強度的分佈不是線性:若變數的關係強度的分佈不是線性,預測就會產生很大的誤差。

  • 收集的資料沒有代表性:若一開始收集來建立迴歸方程式中的那些資料沒有代表性,預測結果也會有錯。


  1. 模型如果太簡單 (ex. 單因素模型所形成的直線),可能無法表現資料的主要型態;模型如果太複雜 (ex. 九因素模型),又會太容易受到取得資料點的影響,這就是統計學家提到的 overfit (過度配適)。在機器學習領域有個十分重要的事實,使用因素較多、較複雜的模型,未必能得到較好的預測結果,複雜型帶來的問題,反而使我們的預測變得更糟

  1. 若樣本資料極具代表性,採用最複雜的模型會是個好辦法;若樣本資料有偏差,採用最複雜的模型就會容易遭受雜訊 (noise) 影響,遭遇過度配適 (overfit) 問題。overfit 就是資料的偶像崇拜,因為我們只注意到測量的資料,反而忽視真正重要的東西

過度配適 (overfit) 例子

說明

① 依據歷史資料預測股市

忽視與未來股價有關的因素。

② 寄送電子郵件時,猜測收件者如何解讀

忽視收件者的解讀方式。

③ 企業的激勵制度

不同的激勵制度,可能會產生各種無法預料的結果;一家公司的 CEO 重視什麼,公司就會朝那個方向發展。

④ 工廠只重視生產指標

忽視維修與修理,最後形成重大災難。(導引員工認真地完成不當目標)

⑤ 重視網頁廣告曝光度,網頁四處是廣告

讀者不堪其擾,遠離此類網頁


  1. 以統計學家的觀點,overfit 是對已知實際資料過度敏感的症狀 (ex. 學生很熟悉會考的方向),解決方法很直接,抑制想找出完全符合模型複雜度的念頭。在統計學和機器學習中,Lasso 演算法對因素權重施加向下的壓力,最多可使它變成 0,只有對結果有明顯影響的因素才能繼續保留在方程式中,因此,一個 overfit 的九因素模型,可簡化到只剩下少數幾個重要因素,方程式也因此變得簡單穩定,增強統計模型的預測準確性和可解釋性。


2021/09/04

[閱讀筆記] HOW NOT TO BE WRONG - 第2章:局部平直,大域彎曲 (Straight Locally, Curved Globally)

 

  1. 數學世界有一條基本規律:如果宇宙給你一條難題,先試看看解一條比較簡單的問題,並且希望簡單版與原來的困難版相去不遠,而使宇宙不會全然排斥

  2. 局部平直,大域彎曲是指:假設你從高處滑降,一開始你可以看到整體,然後只看到一段弧線,然後是更短的一段直線。如同在地球表面的人類,除非聰明到能從觀察遠方物體從地球表面冒出,而發現地球不是平的,否則都會以為自己站在平面上。

開始你可以看到整體

然後只看到一段弧線

然後是更短的一段直線


  1. 感謝牛頓給予我們的觀念,完美的圓並無特殊之處。每一條曲線,只要放大到夠大,看起來都是直線。只要曲線沒有尖銳的轉角,不管它多麼纏繞扭曲,都滿足此特性。

遠遠看發射的彈道飛彈

拉近一點

再拉得更近


  1. 假設你用繩子綁住石頭在頭上轉圈,然後突然放手,它會沿著直線以等速飛射出去,微積分能正確告訴你,石頭脫手瞬間的前進方向。牛頓有另一個洞見是,運動中的物體會沿直線路徑前進,除非另有外力把物體推向另個方向。

  2. 無窮級數的收斂

無窮級數的收斂

  • 無窮等比數列:1, ½, ¼, ⅛, …

  • 如果將無窮等比數列求和,就是無窮等比級數:1 + ½ + ¼ + ⅛ ....

  • 這裡所舉的無窮等 比級數,由於公比 r = ½,滿足 |r | < 1,所以是收斂。收斂的意思是說,如果我們真的把 這無窮多項加起來,會是某個定值,也就是 1+12+14+18+...=11-12=2

例子

  • 數不完的一群人相約到一間咖啡館聚會,他們陸續進入咖啡館並點咖啡喝,第一位點了一杯咖啡,第二位點了半杯咖啡,第三位點了14杯咖啡,第四位點了18杯咖啡,之後進來的人所點的咖啡量是上一位的一半。隔了一段時間後,這群人又到同一間咖啡館聚會,但是服務生索性倒滿兩杯咖啡,讓他們自己分配使用,為什麼?

    • 1 + ½ + ¼ + ⅛ + ....是公比 ½ 的無窮等比級數,假設級數和是S,

    • 即 S = 1 + ½ + ¼ + ⅛ + ....,

    • 則 2S = 2 + 1 + ½ + ¼ +..... = 2 + S,因此 2S - S = 2,得 S = 2。

    • 無窮等比級數 1 + ½ + ¼ + ⅛ + ... 有極限值 2,是收斂級數。


  1. 無窮級數的發散

無窮級數的發散

  • 當 n 愈來愈大時,數列不會趨近於某一定數,此種數列稱為「發散數列」。

例子

  • 有一次這群人改變了點咖啡量的方式,第一位點了一杯咖啡,第二位點了半杯咖啡,第三位點了 1/3 杯咖啡,第四位點了1/4 杯咖啡,之後進來的人所點的咖啡量是他的序號的倒數。但是這次咖啡館沒有足夠的咖啡,為什麼?

    • 1 + 1/2 + 1/3 + 1/4 + 1/5 + 1/6 + ... 這個級數是連續正整數的倒數和,稱作「調和級數」,它沒有極限值,是發散級數。

2021/09/03

[閱讀筆記] HOW NOT TO BE WRONG - 第1章:更不像瑞典 (Less Like Sweden)

 第1章:更不像瑞典 (Less Like Sweden)

  1. 我們都熟知供應和需求曲線,但供需曲線很多時候並不是兩條斜線交叉,而是呈現極大的非線性。比如石油價格的波動、小麥價格的波動。《Antifragile》書中舉了一個極端的例子:2004年-2007年,世界對小麥的需求量僅僅上升了1%,而價格卻上升了兩倍。最近幾年的國內煤價,和波羅的海乾散貨指數等,都是呈現明顯的非線性特徵。(Ref: Antifragile)

  2. 城市並非較大的村莊,企業也非較大的小型企業。隨著治理與管理的範圍變大,整體複雜會呈現非線性 (nonlinear) 的提升,而不是線性 (linear)。(Ref: Antifragile)

  3. 複雜系統充滿了難以察覺的相互依賴與非線性的反應。非線性 (nonlinear) 表示,你施打兩倍的藥物劑量,或指派兩倍的員工數量到產線,你未必可以得到兩倍的效果,有時候可能得到多一點點的效果,或者是比原本更少的效果。(Ref: Antifragile)

  4. 真實的世界是非線性的,而且會比你想得更非線性。我們身處於非線性的世界 (線性的世界只存在你的教室裡、課本中),例如天氣預測模型深受非線性因素的影響,即便你有一個正確的模型 (實際上你一定沒有),只要一個輸入參數有變化,你可能得到完全不同的結論。(Ref: The Black Swan)

  5. 漁業經濟模型是 renewable resources,其會受到三個非線性關係的影響,雖然無法讓魚群一直成長,但若讓再生率與捕獲率維持動態平衡,就能夠永遠維持高且穩定的捕獲率 (harvest rate)。(Ref: Thinking in Systems: A Primer )

Factors

說明

價格

越罕見的魚類,價格越貴

再生率 

(regeneration rate)

魚群太稀少 (找不到交配對象) 或數量太多 (沒有足夠的食物與棲息地),都無法擁有高再生率

每單位資本的收益率 

(yield per unit of capital)

取決於捕魚技術的效率


  1. 亞里斯多德曾在《尼各馬科倫理學》(Nicomachean Ethics) 提過,吃太多或太少都會引起消化不良,最佳狀況應介於中間,因為飲食與健康的關係不屬於線性,而是曲線,兩種極端都不好。

  2. 拉佛曲線 (Laffer Curve) 是由供給面經濟學派的 Laffer 所提出,主要在描述稅率(t) 與總稅收(T) 之間的關係。當稅率(t) 為0%的時候,人民不必繳稅,因此政府總稅收(T) 等於零;當稅率為100%時,所有的工作所得都必需繳交國庫,自然也沒有人願意工作,因此總稅額也會等於零。除了這兩個極端以外,總稅收會大於零。而經濟社會存在一個最適的稅率可以使得總稅收極大,主政者則必須設法將稅率定在最適稅率附近,以最大化國庫收益。實務上,要找出最適稅率是多少並不容易,而且最適稅率也可能隨時空背景不同而有所不同,也就是說,它並非恆常不變的,因此也增加了實證上的困難。如果主政者在判斷上出現錯誤,採行了不當的增稅或減稅政策都有可能使總稅收不增反減。(Ref: https://reurl.cc/ynNdZq )


2021/09/02

[閱讀筆記] HOW NOT TO BE WRONG - 前言:我什麼時候才會用到數學?

 

  1. 學數學要計算定積分,猶如足球員要做體能訓練與柔軟操一樣。⚽ 假設你想成為職業足球員,你就必須做一堆反覆、無聊、表面上看來毫無關聯的訓練,例如,丟擲重物、繞著交通錐跑來跑去等。球員會從日復一日乏味的訓練中練出強度、速度、直覺與彈性,練習這些操練就是在學期踢足球。

  2. ✈️ 二戰期間,結束轟炸任務的英國皇家空軍 (RAF, Royal Air Force) 戰機,機身都像多孔的瑞士乳酪,受傷的彈孔多位於機翼與機尾,引擎反而較少受創。這並非代表德軍不打引擎,而是被打到引擎的戰機都無法安全返航。你去醫院恢復室,就會發現腿上有槍傷的人數,會比胸部有槍傷的人多,這並非胸部比較不會吃子彈,而是胸部吃子彈的人難以倖存

  1. 裝甲安裝太多,飛機會飛不動;裝甲安裝太少,飛機被擊落機率大增。根據數學家的分析,反而將保護裝甲安裝在引擎,才是提升戰機安全返航的關鍵。在戰爭時期,勝利經常是少被擊落 5% 飛機,或者少消耗 5% 燃油的一方。這些都不是製作戰爭電影的素材,卻是打勝仗的關鍵,這裡面每一步都是數學。

  2. 對數學家而言,彈孔問題就是存活者偏誤 (surviorship bias),此狀況存在於我們日常生活中。📈 以共同基金為例,在分析基金表現時,常會漏掉已下架的基金。《財務評論》(Review of Finance) 在 2011 年計算 1995 ~ 2004 年間,Morningstar 大型平衡基金的績效表現:


平均增長

平均年化報酬率

只看 2011 年還存活的基金

178.4%

10.8%

涵蓋完整近 5,000 檔基金

134.5%

8.9%


  1. 數學宇宙分成四個象限,本書不打算講那些複雜又深刻的定理與猜想。本書只準備帶你逛逛左上角那個簡單又深刻的象限,它們只涉及一些「原則」,應用層面遠超出你認為的數學範圍,它們只是工具腰帶上好用的工具,適當的使用一定會幫助你不犯錯。

2021/09/01

[Microsoft Teams] 頻道內的對話消失

Problem

用 desktop 版本的 Microsoft Teams 查看頻道內的對話內容,某幾天的內容突然消失,但用手機 APP 看,對話資料存在,兩邊看到的結果不一致。



How-To

sign out and sign in again,即可正常顯示;若仍舊無法正常顯示,可至此篇文章,詢問進一步的解決方式:https://reurl.cc/MA9QKX