albert's blog: [閱讀筆記] Algorithms to Live By

2021/06/08

[閱讀筆記] Algorithms to Live By - 過度配適 (Overfitting)

過度配適 (Overfitting) — 少，但是更好

模型如果太簡單 (ex. 單因素模型所形成的直線)，可能無法表現資料的主要型態；模型如果太複雜 (ex. 九因素模型)，又會太容易受到取得資料點的影響，這就是統計學家提到的 overfit (過度配適)。在機器學習領域有個十分重要的事實，使用因素較多、較複雜的模型，未必能得到較好的預測結果，複雜型帶來的問題，反而使我們的預測變得更糟。

若樣本資料極具代表性，採用最複雜的模型會是個好辦法；若樣本資料有偏差，採用最複雜的模型就會容易遭受雜訊 (noise) 影響，遭遇過度配適 (overfit) 問題。overfit 就是資料的偶像崇拜，因為我們只注意到測量的資料，反而忽視真正重要的東西。

過度配適 (overfit) 例子	說明
① 依據歷史資料預測股市	忽視與未來股價有關的因素。
② 寄送電子郵件時，猜測收件者如何解讀	忽視收件者的解讀方式。
③ 企業的激勵制度	不同的激勵制度，可能會產生各種無法預料的結果；一家公司的 CEO 重視什麼，公司就會朝那個方向發展。
④ 工廠只重視生產指標	忽視維修與修理，最後形成重大災難。(導引員工認真地完成不當目標)
⑤ 重視網頁廣告曝光度，網頁四處是廣告	讀者不堪其擾，遠離此類網頁

偏差 (bias) 與變異 (variance) 的兩種模型誤差是互補的，減少偏差 (模型複雜化) ，可能會增加變異；增加偏差 (簡化模型)，可能會減少變異。在量子力學中，海森堡 (Heisenberg) 的測不準原理，陳述如果確定粒子的位置，將使它的動量不確定性增加；相反的，如果精確測量粒子的動量，將使它的位置的不確定性增加。同樣地，偏差與變異的權衡，呈現了模型優異程度的基本界線。

如何揪出 overfit ？透過交叉驗證 (cross validation) 可以驗證是否出現 overfit，驗證模型對於訓練過程中沒見過數據的預測能力，可以避免依賴某一特定的訓練和測試資料產生偏差。例如，學校會利用標準化考試 (ex. 段考、期末考) 來驗證學生學習成效，但有可能學生發展出考高分的技巧以適應標準化考試，出現 overfit 的現象；此時，可隨機挑選學生 (ex. 一班一個人) 來做非標準化考試 (ex. 口試或作文)，若兩者分數有差異，代表學生技能已 overfit 現有考試機制。透過交叉驗證，可以避免遇到抽到某些資料驗證出來覺得模型訓練得還不錯，但換抽另一批資料來驗證就又覺得模型訓練的很糟糕的狀況。

以統計學家的觀點，overfit 是對已知實際資料過度敏感的症狀 (ex. 學生很熟悉會考的方向)，解決方法很直接，抑制想找出完全符合模型複雜度的念頭。在統計學和機器學習中，Lasso 演算法對因素權重施加向下的壓力，最多可使它變成 0，只有對結果有明顯影響的因素才能繼續保留在方程式中，因此，一個 overfit 的九因素模型，可簡化到只剩下少數幾個重要因素，方程式也因此變得簡單穩定，增強統計模型的預測準確性和可解釋性。
一般來說我們在做機器學習 (Machine Learning) 的時候，我們會習慣將資料集 (Dataset) 切割 (Splits) 成訓練集 (Training Set) 跟驗證集 (Validation Set)。顧名思義，Training Set 是用來訓練 Machine Learning 的 Model；而 Validation Set 則用來驗證這個 Model 訓練的好不好。顧名思義 K-fold Cross-Validation 就是將資料集拆分成 K 份做交叉驗證。交叉驗證的方法是將其中 K-1 份的資料當作訓練集，剩下來的那份做為驗證集，算出一個 Validation Error，接著再從沒當過驗證集的資料挑一份出來當驗證集，剛剛做過驗證集的資料則加回訓練集，維持 K-1 份做訓練、1 份做驗證，如此反覆直到每一份資料都當過驗證集，這樣會執行 K 次，算出 K 個 Validation Error，最後我們再將這 K 個 Validation Error 做平均，用他們的平均分數來做為我們評斷模型好壞的指標。(https://reurl.cc/OXjOXA)

語言也形成另一種 Lasso 演算法，話講得越多，花的力氣越大，聆聽者的注意力負擔也會加劇，你應降低講話的複雜度；business plan 被壓縮為簡單扼要的簡報、人生建議必須簡短有趣才能廣為流傳。凡事必須通過 Lasso 演算法，人們才能牢牢記住它。
面對複雜的真實生活，放棄理性模型，採用單純的試探法，反而是最理性的選擇。談到投資組合管理，除非你對自己掌握的資訊有十足把握，否則還是完全忽略這些資訊比較好，只要估計稍有誤差，就形成差別很大的資產配置；股債各半的資產配置，完全忽略歷史資料，不會有 overfit 問題。少即是多 (less is more) 與減少 overfit，將是人類社會的重要指南。
毫無頭緒時，最簡單的計畫就是最好的計畫。當我們的期望不確定、資料又有許多雜訊，最好的辦法就是從大處著手，以簡略方式思考。需要思考越深入時，用的筆就要越粗，麥克筆讓人無法鑽入細節，只能用來畫形狀、線條和方塊，讓你能專注於整體而非細節。
提前停止 (early stopping) 的重點，有時候不是在理性與直覺間做選擇。跟著直覺走，有時也是理性的解決方案。決策越複雜、越不穩定、越不確定，仰賴直覺決定提前停止 (early stopping) 的方式就越理性。

albert's blog

Total Pageviews

2021/06/08

[閱讀筆記] Algorithms to Live By - 過度配適 (Overfitting)

No comments: