第二章 不再神奇的超級暢銷書 (Garbage in, Gospel out)
如果我們讓電腦去做愚蠢的事情,它們也會忠實地遵從我們的命令,也就是 「garbage in, garbage out」。不管電腦多強大,輸出的價值取決於輸入的品質。人常常過度相信電腦生成的結果,不會審慎思考,盲目崇拜根據誤導性數字而生成的數據結果。
選擇性偏誤:我們很容易用刻板印象 (stereotype) 或一些極端的例子作為估計某些事件發生的概率的基礎,而忽視其他有關潛在可能性的證據。
要想做到完全不存偏見、不犯錯誤,對何人都是不可能的;但是有意識地避免偏聽、偏信,應該是個可以努力的方向。
倖存者偏差 (survivorship bias),是一種認知偏差,其邏輯謬誤表現為過分關注於目前人或物「倖存了某些經歷」然而往往忽略了不在視界內或無法倖存這些事件的人或物。也就是說,我們現在所選擇的研究樣本並回顧過去時,只能看到倖存者。
做為資料科學家與分析師,更應慎重評估資料與全面性的思考,應評估是否可能存在無法觀察到的數據。實驗設計時更應該試著減少偏差,並且忠實呈現實驗的結果。
對於成功的企業、投資方法和婚姻進行回溯研究的所有書籍,都存在有倖存者偏差問題,包含企業如何成功、如何投資致富、婚姻持久的秘訣等。一個有效的檢驗方法是,找到擁有這些特點的企業或個人,然後查看他們未來 10 / 20 / 50 年後的表現。若否,我們僅是在考察過去,而非預測未來。
倖存者偏差 (survivorship bias) 回溯性研究的例子:《從 A 到 A+》本書,找出卓越與平庸的企業的差別:
我們很自然地會根據所看到的現象而得出結論,例如,工人的工資、受損的飛機、成功的公司等。我們應當還要考慮到沒看到的事情,例如,離職的員工,沒有返航的飛機、失敗的公司等。沒看到的資料與看到的資料一樣重要,甚至更加重要。為了避免倖存者偏差,應當從過去的資料開始,並展望未來。
No comments:
Post a Comment