2021/09/05

[閱讀筆記] HOW NOT TO BE WRONG - 第3章:每個人都肥胖 (Everyone Is Obese)

 

  1. 線性迴歸 (linear regression) 是社會科學最仰賴的統計工具,每當你讀到報紙說,表親越多的人越快樂、開設 Burger King 越多的國家風氣越敗壞、美國人收入每增加 3% 投給共和黨的人會增加 3% 等,這些都是利用線性迴歸在預測趨勢。

  2. 我們可以很容易且聰明地,將已經發生的事情勾勒出其因果關係 (cause-and-effect relationship),這是線性思考 (linear thinking) 的心智模型 (if A then B);然而,當我們要預測未來時,通常都不管用。(Ref: Learn to Think in Systems)

  3. simple linear regression 是度量看不見的東西或預測尚未發生的事件結果的強大工具。藉由統計學的幫忙,你就能在只看到另一個變數表現時,準確猜測某人在目標變數上可能的 scores。迴歸分析 (Regression Analysis) 是利用一組自變數 (或稱預測變數、獨立變數、predictor variable) 對某一因變數 (或稱準則變數、criterion variable) 建立關係式以便做為預測的依據,它也可以做為評估自變數對因變數的效用。迴歸的主要目的是做預測,只用一個自變數來預測應變數稱為 simple linear regression;用一個以上的自變數來預測因變數稱為 complex linear regression。

變數

變數類型

平均數

標準差

ACT Scores

自變數 (predictor variable)

20.10

2.38

GPA Scores

因變數 (criterion variable)

2.98

0.68

Weight=correlation coefficientCriterion Standard DeviationPredictor Standard Deviation=0.55.682.38=.16

Constant = Criterion Mean-(WeightPredictor Mean)=2.98-(.1620.1)=-.24

Criteria=Constant+(PredictorWeight)

Predict GPA=-.24+(ACT Score.16)

申請人

ACT Score

Predict GPA

Melissa

26

-.24+(26.16)=3.90

Bruce

14

-.24+(14.16)=2.00


  1. regression analysis 的適用性 (Ref: Statistics Hacks)

適用性

說明

適用於

  • 兩個變數彼此相關 (correlate),你就可以用一個相關變數來預估另一個變數與平均的變異 (包含平均值、標準差和相關係數等資訊)。

不適用於

  • 若兩個變數間的相關性不完美,預測的準確性也不會完美:由於沒有完美的 1.0 相關性存在,你可以用估計的標準差 (standard error of estimate) 來判斷你的誤差大小。

  • 變數的關係強度的分佈不是線性:若變數的關係強度的分佈不是線性,預測就會產生很大的誤差。

  • 收集的資料沒有代表性:若一開始收集來建立迴歸方程式中的那些資料沒有代表性,預測結果也會有錯。


  1. 模型如果太簡單 (ex. 單因素模型所形成的直線),可能無法表現資料的主要型態;模型如果太複雜 (ex. 九因素模型),又會太容易受到取得資料點的影響,這就是統計學家提到的 overfit (過度配適)。在機器學習領域有個十分重要的事實,使用因素較多、較複雜的模型,未必能得到較好的預測結果,複雜型帶來的問題,反而使我們的預測變得更糟

  1. 若樣本資料極具代表性,採用最複雜的模型會是個好辦法;若樣本資料有偏差,採用最複雜的模型就會容易遭受雜訊 (noise) 影響,遭遇過度配適 (overfit) 問題。overfit 就是資料的偶像崇拜,因為我們只注意到測量的資料,反而忽視真正重要的東西

過度配適 (overfit) 例子

說明

① 依據歷史資料預測股市

忽視與未來股價有關的因素。

② 寄送電子郵件時,猜測收件者如何解讀

忽視收件者的解讀方式。

③ 企業的激勵制度

不同的激勵制度,可能會產生各種無法預料的結果;一家公司的 CEO 重視什麼,公司就會朝那個方向發展。

④ 工廠只重視生產指標

忽視維修與修理,最後形成重大災難。(導引員工認真地完成不當目標)

⑤ 重視網頁廣告曝光度,網頁四處是廣告

讀者不堪其擾,遠離此類網頁


  1. 以統計學家的觀點,overfit 是對已知實際資料過度敏感的症狀 (ex. 學生很熟悉會考的方向),解決方法很直接,抑制想找出完全符合模型複雜度的念頭。在統計學和機器學習中,Lasso 演算法對因素權重施加向下的壓力,最多可使它變成 0,只有對結果有明顯影響的因素才能繼續保留在方程式中,因此,一個 overfit 的九因素模型,可簡化到只剩下少數幾個重要因素,方程式也因此變得簡單穩定,增強統計模型的預測準確性和可解釋性。


No comments:

Post a Comment