Total Pageviews

2021/06/08

[閱讀筆記] Algorithms to Live By - 過度配適 (Overfitting)

 過度配適 (Overfitting) — 少,但是更好

  1. 模型如果太簡單 (ex. 單因素模型所形成的直線),可能無法表現資料的主要型態;模型如果太複雜 (ex. 九因素模型),又會太容易受到取得資料點的影響,這就是統計學家提到的 overfit (過度配適)。在機器學習領域有個十分重要的事實,使用因素較多、較複雜的模型,未必能得到較好的預測結果,複雜型帶來的問題,反而使我們的預測變得更糟

  1. 若樣本資料極具代表性,採用最複雜的模型會是個好辦法;若樣本資料有偏差,採用最複雜的模型就會容易遭受雜訊 (noise) 影響,遭遇過度配適 (overfit) 問題。overfit 就是資料的偶像崇拜,因為我們只注意到測量的資料,反而忽視真正重要的東西

過度配適 (overfit) 例子

說明

① 依據歷史資料預測股市

忽視與未來股價有關的因素。

② 寄送電子郵件時,猜測收件者如何解讀

忽視收件者的解讀方式。

③ 企業的激勵制度

不同的激勵制度,可能會產生各種無法預料的結果;一家公司的 CEO 重視什麼,公司就會朝那個方向發展。

④ 工廠只重視生產指標

忽視維修與修理,最後形成重大災難。(導引員工認真地完成不當目標)

⑤ 重視網頁廣告曝光度,網頁四處是廣告

讀者不堪其擾,遠離此類網頁


  1. 偏差 (bias) 與變異 (variance) 的兩種模型誤差是互補的,減少偏差 (模型複雜化) ,可能會增加變異;增加偏差 (簡化模型),可能會減少變異。在量子力學中,海森堡 (Heisenberg) 的測不準原理,陳述如果確定粒子的位置,將使它的動量不確定性增加;相反的,如果精確測量粒子的動量,將使它的位置的不確定性增加。同樣地,偏差與變異的權衡,呈現了模型優異程度的基本界線

  1. 如何揪出 overfit ? 透過交叉驗證 (cross validation) 可以驗證是否出現 overfit,驗證模型對於訓練過程中沒見過數據的預測能力,可以避免依賴某一特定的訓練和測試資料產生偏差。例如,學校會利用標準化考試 (ex. 段考、期末考) 來驗證學生學習成效,但有可能學生發展出考高分的技巧以適應標準化考試,出現 overfit 的現象;此時,可隨機挑選學生 (ex. 一班一個人) 來做非標準化考試 (ex. 口試或作文),若兩者分數有差異,代表學生技能已 overfit 現有考試機制。透過交叉驗證,可以避免遇到抽到某些資料驗證出來覺得模型訓練得還不錯,但換抽另一批資料來驗證就又覺得模型訓練的很糟糕的狀況。

  1. 以統計學家的觀點,overfit 是對已知實際資料過度敏感的症狀 (ex. 學生很熟悉會考的方向),解決方法很直接,抑制想找出完全符合模型複雜度的念頭。在統計學和機器學習中,Lasso 演算法對因素權重施加向下的壓力,最多可使它變成 0,只有對結果有明顯影響的因素才能繼續保留在方程式中,因此,一個 overfit 的九因素模型,可簡化到只剩下少數幾個重要因素,方程式也因此變得簡單穩定,增強統計模型的預測準確性和可解釋性。

  2. 一般來說我們在做機器學習 (Machine Learning) 的時候,我們會習慣將資料集 (Dataset) 切割 (Splits) 成訓練集 (Training Set) 跟驗證集 (Validation Set)。顧名思義,Training Set 是用來訓練 Machine Learning 的 Model;而 Validation Set 則用來驗證這個 Model 訓練的好不好。顧名思義 K-fold Cross-Validation 就是將資料集拆分成 K 份做交叉驗證。交叉驗證的方法是將其中 K-1 份​的資料當作訓練集,剩下來的那份做為驗證集,算出一個 Validation Error,接著再從沒當過驗證集的資料挑一份出來當驗證集,剛剛做過驗證集的資料則加回訓練集,維持 K-1 份做訓練、1 份做驗證,如此反覆直到每一份資料都當過驗證集,這樣會執行 K 次,算出 K 個 Validation Error,最後我們再將這 K 個 Validation Error 做平均,用他們的平均分數來做為我們評斷模型好壞的指標。(https://reurl.cc/OXjOXA)

  1. 語言也形成另一種 Lasso 演算法,話講得越多,花的力氣越大,聆聽者的注意力負擔也會加劇,你應降低講話的複雜度;business plan 被壓縮為簡單扼要的簡報、人生建議必須簡短有趣才能廣為流傳。凡事必須通過 Lasso 演算法,人們才能牢牢記住它。

  2. 面對複雜的真實生活,放棄理性模型,採用單純的試探法,反而是最理性的選擇。談到投資組合管理,除非你對自己掌握的資訊有十足把握,否則還是完全忽略這些資訊比較好,只要估計稍有誤差,就形成差別很大的資產配置;股債各半的資產配置,完全忽略歷史資料,不會有 overfit 問題少即是多 (less is more) 與減少 overfit,將是人類社會的重要指南

  3. 毫無頭緒時,最簡單的計畫就是最好的計畫。當我們的期望不確定、資料又有許多雜訊,最好的辦法就是從大處著手,以簡略方式思考。需要思考越深入時,用的筆就要越粗,麥克筆讓人無法鑽入細節,只能用來畫形狀、線條和方塊,讓你能專注於整體而非細節

  4. 提前停止 (early stopping) 的重點,有時候不是在理性與直覺間做選擇。跟著直覺走,有時也是理性的解決方案。決策越複雜、越不穩定、越不確定,仰賴直覺決定提前停止 (early stopping) 的方式就越理性

No comments: