Total Pageviews

2021/06/03

[閱讀筆記] Algorithms to Live By - 開發與善用 (Explore / Exploit)

 開發與善用 (Explore / Exploit) - 嘗試新歡?還是固守舊愛?

  1. 最佳停止問題的權威教科書一開頭就寫道:「最佳停止理論探討選擇適當時機採取特定行動的問題。」我們很難想出比這個更精確的言詞來描述人的境況。例如,我們決定買賣股票的時機、決定打開一瓶留給特殊場合的紅酒的適當時機、打擾某人的適當時機、以及接吻的適當時機。

  2. 直覺上我們視為理性的決策方式,是毫無遺漏地列出各種選項,小心翼翼地加以權衡,最後選出一個最好的;然而,實際上,當時間不斷流逝,決策 (廣義的說是思考) 過程最重要的面相其實只有一個,就是何時該拿定主意

  3. 我們在日常生活中,常遇到抉擇。原本只是想放鬆一下,但是想到要做抉擇,就又沒那麼輕鬆了。生活就是在創新和傳統、最新和最棒、冒險和堅持舊愛之間取得平衡。這正如找房子時,應按兵不動或採取行動的兩難局面一樣,真正的問題是:平衡點到底在哪?


選擇一

選擇二

去哪吃晚餐?

去最喜歡的義大利餐廳?

去剛開幕的泰國餐館?

找誰一起吃飯?

找最好的朋友去?

找想進一步認識的普通朋友?

點餐

點老樣子?

點新菜色?


  1. 開發與善用的權衡 (explore / exploit tradeoff):了解開發與善用後,不只有助於更正確決定上哪吃飯或聽什麼音樂,還能幫助我們了解應該如何隨時間而改變目標,並且知道合理的行動多半未必會選擇最好的目標在權衡新事物和舊愛時,最重要的是我們打算在上面花多少時間?


開發 (explore)

善用 (exploit)

電腦領域的定義

蒐集資料

運用現有資訊取得已知的良好結果

特質

探索與發現新喜好的價值會隨時間而逐漸降低,因為我們體會它的機會越來越少。例如,你在阿姆斯特丹最後一晚到一家迷人的咖啡廳喝咖啡,日後再也沒機會光顧。

善用的價值會隨時間而逐漸提高,例如,今天你最喜歡的咖啡廳,跟你上個月的體驗差不多讚。

賭場的應用

如果你有時間善用到開發結果,就選擇開發 (ex. 哪台吃角子老虎比較好賺)

如果你打算離開賭場,就選擇善用 (選擇已知勝率最高的吃角子老虎機)

其他生活的例子

樂評家聽新作品,寫評論

家人在假日聚在一起吃飯;聽喜愛歌手的演唱會


  1. 製藥業的兩難

開發 (explore)

善用 (exploit)

探索不確定的未來,希望永續經營,若有重大醫學突破,可以持續幫助未來的人類。

確保現在能賺進利潤的現有產品有很好的表現。


不論怎麼想,「現在」總是比未來重要,利潤更是如此,經濟學家把「現在比未來有價值」稱為「折現」。


舉例來說,你對於明天晚餐的關心程度遠高於一年後的晚餐,確切的差異取決於你的「貼現函數」。


  1. Gittins Index 說明

提出者

英國數學家 John Gittings 於 1970 年提出此指數,破解數十年來無法解達的數學謎題。

白話說明

當你計劃出去吃一頓飯的時候,明天那頓應該比今天這頓要貶值一點 —— 因為你明天可能會離開這裡,吃不上那頓飯。具體貶值多少,取決於你預期還能停留多長時間。基於這一點,他提出了一個非常複雜的解決方案,最後結果是給每個選項計算了一個指數,現在被稱為「Gittins Index」。

(Ref.: https://reurl.cc/1gZmkX)

Gittins Index 表格說明 (表 2-1)

  • 表 2-1 假定每次比前一次貶值 10% 的計算結果

  • 從表格發現有趣的現象

    • ① 任選一列,由左往右的指數逐漸增加,這隱含著如果選到一直贏錢的吃角子老虎機,繼續在同一台下注是正確選擇

    • ② 輸錢就換一台的策略很糟,例如贏 9 次、輸 1 次的指數還有 .8695,仍高於表格中的其他值,應在同一台下注而非換一台。

    • ③ 左上角 0 注 0 贏,也就是一台完全陌生的機器,期望值為 0.5,Gittins Index 卻高達 0.7029

Gittins Index 表格說明 (表 2-2)

  • 表 2-2 假定每次比前一次貶值 99% 的計算結果

  • 假設未來的權重與現在相差無幾,相對於接受確定事物,選擇偶然發現之事物的價值會更高。在下表中,左上角 0 注 0 贏,也就是從來沒測試過的機器,勝率高達 86.99%。

理論限制

  • 如果改變選擇要付出代價,Gittins 策略就非最佳策略

  • 另外那座山可能比較高,但不一定要前往,更不用說要花力氣爬山。

反思

  • 如果我們有機會善用開發的結果,我們就有絕佳又精確的理由偏好未知事物。即使覺得未知事物沒有改變、甚至更糟,但它提供更好的機會。

  • 開發本身是有價值的,因為嘗試新事物可提高發現最佳選擇的機會,因此考慮未來而非專注現在,將促使我們趨向創新。

生活智慧應用

  • ① 年輕時代要大膽探索,因為你還有時間:年輕時可不斷探索未知,積累經驗教訓,才能迅速理解這個世界,後期才能做出更好的選擇。

  • ② 隨著年齡增長,要慢慢學會利用已有的經驗,專注於收獲:一般人的規律是,人的年齡越大,社交的圈子越窄。這其實是老人的理性選擇。他們已經完成了探索!知道自己最適合做的事情是什麼,和哪些人在一起最舒服,哪個餐館最符合自身口味,已沒有冒險探索的必要,只要享受人生就行了。

  • ③ 慢慢變老的過程中,我們的生活其實是越來越好:老人不探索,並不是不敢探索,而是因為他們不用探索 — 他們已經完成探索。當你看到一位老人,每天跟同一個人,去同一個餐館,坐在同一個座位,點同樣的飯菜,你可能以為他的生活很無聊 —— 殊不知這才是最浪漫的事,他是在享受自己用一輩子的時間所探索出來的成果!


  1. 當 Gittins Index 對你來說太複雜,你還有一個選擇:特別注意「遺憾」。遺憾常源自於我們沒做到的事,以及沒嘗試過的事。管理理論學家 Chester Barnard 曾說:「放手嘗試的話,就算不成功你至少還有收穫 (to try and fail is at least to learn);但沒嘗試就沒有結果,這樣的損失難以估計。」

  2. A/B Test (Ref.: https://reurl.cc/1gZGLV)

定義

AB 測試 (A/B test) 是許多網站、尤其是具備電子商務功能的網站拿來快速測試改版、微調效果並協助設計與商業決策的方法之一。簡單來說就是將欲測試的變因或假說分別做成A版與B版 (甚至C、D等版),利用一些工具,將造訪網站的人流隨機均分至兩個版本,最後選擇目標達成表現較好的版本。

統計學角度

從上面的定義,我們可以知道 A/B 測試其實包含了三個核心概念:「隨機化的實驗」、「一個變因,兩種選擇」、「兩種樣本的假設檢定」。以統計學中實驗設計的角度來看,進行A/B 測試實際上是在執行一個「隨機對照試驗」 (Randomized Controlled Trial,RCT):在所有的使用者中隨機抽出兩組,一組投放 A 版本,另一組投放 B 版本,其中 A 版本與 B 版本只有一個地方不一樣,接著蒐集使用者的資料,並進行分析比較出哪一個版本較佳,這便是整個A/B 測試的過程。在進行 A/B 測試時的步驟如下:


  1. 大致來說,大多數人傾向過度開發,也就是對新事物的偏好遠大於原本最喜愛的事物。所以,我們常太早決定用誰擔任新秘書,但又常常太晚決定不再嘗試新航空公司;沒有祕書需要付出代價,太早決定只選某家航空公司也是。

  2. 要在變化不定的世界生活,本身也要有變化不定的特質。只要事物持續改變,你就不能完全停止開發,例如,你先前感到失望而幾年沒去過的餐廳,或許已經換人經營,可能可以再訪一次。

  3. 開發與善用的矛盾、時間的重要性、Gittins Index 表格中 0-0 選項的高勝率、盡量減少遺憾等,不僅讓我們以新方式理解自身面臨的特定問題,也能了解人類生活的所有層面。

  4. 人類有個奇怪的特質,就是我們需要花費多年才學會自立;反觀動物,北美馴鹿與羚羊打從一出生就要開始逃離掠食者。

玩吃角子老虎機

育兒

最佳策略通常是一開始先開發,再依據開發 (explore) 結果善加利用 (exploit) 勝率較高的機台。這種方式的缺點是,開發階段的報酬通常不理想。

童年時期讓我們有機會開發各種可能性,不用擔心報酬,將報酬問題交給父母、祖父母來處理。


兒童的善用能力 (exploit) 很差,不會穿鞋子、不懂長期計畫、很難專注,各方面都不在行;但是對新玩具很感興趣,很擅長按下隨機按紐 (explore),從 A 跳到 B。


如果說兒童時期的目的是開發,他們確實應該做上述的事情。嬰兒很會把每個東西都放到嘴裡嘗嘗,就跟大人在賭場裡每部吃角子老虎都拉拉看一樣。


  1. 更廣泛地說,我們對理性的直覺通常源自善用而非開發。我們討論決策時通常只注意單一決策的立即報酬結果,如果我們把每個決定都當成最後一次,採取善用決策確實合理。但是我們一輩子要做出許多決定,其中許多決定、尤其是在人生初期來說,強調開發 (例如,捨棄已知事物而選擇新事物、捨安全而選擇刺激、捨考慮而選擇隨機),才是最合理的選擇

  2. 老人的社會關係減少,是他們自己選擇的。他們選擇削減次要關係,轉而專注於少數親近的朋友和家庭成員。這個過程是刻意的選擇,人類接近生命終結時,往往希望更專注於更具意義的關係。但是,老人與年輕人都是依據自己的時間做出最適宜的選擇。刻意把社會網絡限縮到只留下最具意義的關係,是享受剩餘人生較少時的合理反映。但並非老人永遠都是選擇善用,年輕人永遠都選擇開發:

選項

年輕人

老人

選擇飯友

【開發】

傾向選擇新朋友

【善用】

傾向選擇家人或老友

選擇是否搬到國外

【善用】

傾向選擇家人留在家鄉

【善用】

傾向選擇家人留在家鄉

選擇是否選擇新的醫療技術,讓自己延年益壽

【開發】是

【開發】是


  1. 如果把未來的人生視為好好運用幾十年來累積的知識的機會,最大的收穫應是這句話:開發者用樂趣換取知識,人生應該越過越好


No comments: