albert's blog: [閱讀筆記] Algorithms to Live By - 開發與善用 (Explore / Exploit)

開發與善用 (Explore / Exploit) - 嘗試新歡？還是固守舊愛？

最佳停止問題的權威教科書一開頭就寫道：「最佳停止理論探討選擇適當時機採取特定行動的問題。」我們很難想出比這個更精確的言詞來描述人的境況。例如，我們決定買賣股票的時機、決定打開一瓶留給特殊場合的紅酒的適當時機、打擾某人的適當時機、以及接吻的適當時機。
直覺上我們視為理性的決策方式，是毫無遺漏地列出各種選項，小心翼翼地加以權衡，最後選出一個最好的；然而，實際上，當時間不斷流逝，決策 (廣義的說是思考) 過程最重要的面相其實只有一個，就是何時該拿定主意。
我們在日常生活中，常遇到抉擇。原本只是想放鬆一下，但是想到要做抉擇，就又沒那麼輕鬆了。生活就是在創新和傳統、最新和最棒、冒險和堅持舊愛之間取得平衡。這正如找房子時，應按兵不動或採取行動的兩難局面一樣，真正的問題是：平衡點到底在哪？

	選擇一	選擇二
去哪吃晚餐？	去最喜歡的義大利餐廳？	去剛開幕的泰國餐館？
找誰一起吃飯？	找最好的朋友去？	找想進一步認識的普通朋友？
點餐	點老樣子？	點新菜色？

開發與善用的權衡 (explore / exploit tradeoff)：了解開發與善用後，不只有助於更正確決定上哪吃飯或聽什麼音樂，還能幫助我們了解應該如何隨時間而改變目標，並且知道合理的行動多半未必會選擇最好的目標。在權衡新事物和舊愛時，最重要的是我們打算在上面花多少時間？

	開發 (explore)	善用 (exploit)
電腦領域的定義	蒐集資料	運用現有資訊取得已知的良好結果
特質	探索與發現新喜好的價值會隨時間而逐漸降低，因為我們體會它的機會越來越少。例如，你在阿姆斯特丹最後一晚到一家迷人的咖啡廳喝咖啡，日後再也沒機會光顧。	善用的價值會隨時間而逐漸提高，例如，今天你最喜歡的咖啡廳，跟你上個月的體驗差不多讚。
賭場的應用	如果你有時間善用到開發結果，就選擇開發 (ex. 哪台吃角子老虎比較好賺)	如果你打算離開賭場，就選擇善用 (選擇已知勝率最高的吃角子老虎機)
其他生活的例子	樂評家聽新作品，寫評論	家人在假日聚在一起吃飯；聽喜愛歌手的演唱會

製藥業的兩難

開發 (explore)

善用 (exploit)

探索不確定的未來，希望永續經營，若有重大醫學突破，可以持續幫助未來的人類。

確保現在能賺進利潤的現有產品有很好的表現。

不論怎麼想，「現在」總是比未來重要，利潤更是如此，經濟學家把「現在比未來有價值」稱為「折現」。

舉例來說，你對於明天晚餐的關心程度遠高於一年後的晚餐，確切的差異取決於你的「貼現函數」。

Gittins Index 說明

提出者

英國數學家 John Gittings 於 1970 年提出此指數，破解數十年來無法解達的數學謎題。

白話說明

當你計劃出去吃一頓飯的時候，明天那頓應該比今天這頓要貶值一點 —— 因為你明天可能會離開這裡，吃不上那頓飯。具體貶值多少，取決於你預期還能停留多長時間。基於這一點，他提出了一個非常複雜的解決方案，最後結果是給每個選項計算了一個指數，現在被稱為「Gittins Index」。

(Ref.: https://reurl.cc/1gZmkX)

Gittins Index 表格說明 (表 2-1)

表 2-1 假定每次比前一次貶值 10% 的計算結果
從表格發現有趣的現象

① 任選一列，由左往右的指數逐漸增加，這隱含著如果選到一直贏錢的吃角子老虎機，繼續在同一台下注是正確選擇。
② 輸錢就換一台的策略很糟，例如贏 9 次、輸 1 次的指數還有 .8695，仍高於表格中的其他值，應在同一台下注而非換一台。
③ 左上角 0 注 0 贏，也就是一台完全陌生的機器，期望值為 0.5，Gittins Index 卻高達 0.7029

Gittins Index 表格說明 (表 2-2)

表 2-2 假定每次比前一次貶值 99% 的計算結果
假設未來的權重與現在相差無幾，相對於接受確定事物，選擇偶然發現之事物的價值會更高。在下表中，左上角 0 注 0 贏，也就是從來沒測試過的機器，勝率高達 86.99%。

理論限制

如果改變選擇要付出代價，Gittins 策略就非最佳策略。
另外那座山可能比較高，但不一定要前往，更不用說要花力氣爬山。

反思

如果我們有機會善用開發的結果，我們就有絕佳又精確的理由偏好未知事物。即使覺得未知事物沒有改變、甚至更糟，但它提供更好的機會。
開發本身是有價值的，因為嘗試新事物可提高發現最佳選擇的機會，因此考慮未來而非專注現在，將促使我們趨向創新。

生活智慧應用

① 年輕時代要大膽探索，因為你還有時間：年輕時可不斷探索未知，積累經驗教訓，才能迅速理解這個世界，後期才能做出更好的選擇。
② 隨著年齡增長，要慢慢學會利用已有的經驗，專注於收獲：一般人的規律是，人的年齡越大，社交的圈子越窄。這其實是老人的理性選擇。他們已經完成了探索！知道自己最適合做的事情是什麼，和哪些人在一起最舒服，哪個餐館最符合自身口味，已沒有冒險探索的必要，只要享受人生就行了。
③ 慢慢變老的過程中，我們的生活其實是越來越好：老人不探索，並不是不敢探索，而是因為他們不用探索 — 他們已經完成探索。當你看到一位老人，每天跟同一個人，去同一個餐館，坐在同一個座位，點同樣的飯菜，你可能以為他的生活很無聊 —— 殊不知這才是最浪漫的事，他是在享受自己用一輩子的時間所探索出來的成果！

當 Gittins Index 對你來說太複雜，你還有一個選擇：特別注意「遺憾」。遺憾常源自於我們沒做到的事，以及沒嘗試過的事。管理理論學家 Chester Barnard 曾說：「放手嘗試的話，就算不成功你至少還有收穫 (to try and fail is at least to learn)；但沒嘗試就沒有結果，這樣的損失難以估計。」
A/B Test (Ref.: https://reurl.cc/1gZGLV)

定義

AB 測試 (A/B test) 是許多網站、尤其是具備電子商務功能的網站拿來快速測試改版、微調效果並協助設計與商業決策的方法之一。簡單來說就是將欲測試的變因或假說分別做成A版與B版 (甚至C、D等版)，利用一些工具，將造訪網站的人流隨機均分至兩個版本，最後選擇目標達成表現較好的版本。

統計學角度

從上面的定義，我們可以知道 A/B 測試其實包含了三個核心概念：「隨機化的實驗」、「一個變因，兩種選擇」、「兩種樣本的假設檢定」。以統計學中實驗設計的角度來看，進行A/B 測試實際上是在執行一個「隨機對照試驗」 (Randomized Controlled Trial，RCT)：在所有的使用者中隨機抽出兩組，一組投放 A 版本，另一組投放 B 版本，其中 A 版本與 B 版本只有一個地方不一樣，接著蒐集使用者的資料，並進行分析比較出哪一個版本較佳，這便是整個A/B 測試的過程。在進行 A/B 測試時的步驟如下：

大致來說，大多數人傾向過度開發，也就是對新事物的偏好遠大於原本最喜愛的事物。所以，我們常太早決定用誰擔任新秘書，但又常常太晚決定不再嘗試新航空公司；沒有祕書需要付出代價，太早決定只選某家航空公司也是。
要在變化不定的世界生活，本身也要有變化不定的特質。只要事物持續改變，你就不能完全停止開發，例如，你先前感到失望而幾年沒去過的餐廳，或許已經換人經營，可能可以再訪一次。
開發與善用的矛盾、時間的重要性、Gittins Index 表格中 0-0 選項的高勝率、盡量減少遺憾等，不僅讓我們以新方式理解自身面臨的特定問題，也能了解人類生活的所有層面。
人類有個奇怪的特質，就是我們需要花費多年才學會自立；反觀動物，北美馴鹿與羚羊打從一出生就要開始逃離掠食者。

玩吃角子老虎機

育兒

最佳策略通常是一開始先開發，再依據開發 (explore) 結果善加利用 (exploit) 勝率較高的機台。這種方式的缺點是，開發階段的報酬通常不理想。

童年時期讓我們有機會開發各種可能性，不用擔心報酬，將報酬問題交給父母、祖父母來處理。

兒童的善用能力 (exploit) 很差，不會穿鞋子、不懂長期計畫、很難專注，各方面都不在行；但是對新玩具很感興趣，很擅長按下隨機按紐 (explore)，從 A 跳到 B。

如果說兒童時期的目的是開發，他們確實應該做上述的事情。嬰兒很會把每個東西都放到嘴裡嘗嘗，就跟大人在賭場裡每部吃角子老虎都拉拉看一樣。

更廣泛地說，我們對理性的直覺通常源自善用而非開發。我們討論決策時通常只注意單一決策的立即報酬結果，如果我們把每個決定都當成最後一次，採取善用決策確實合理。但是我們一輩子要做出許多決定，其中許多決定、尤其是在人生初期來說，強調開發 (例如，捨棄已知事物而選擇新事物、捨安全而選擇刺激、捨考慮而選擇隨機)，才是最合理的選擇。
老人的社會關係減少，是他們自己選擇的。他們選擇削減次要關係，轉而專注於少數親近的朋友和家庭成員。這個過程是刻意的選擇，人類接近生命終結時，往往希望更專注於更具意義的關係。但是，老人與年輕人都是依據自己的時間做出最適宜的選擇。刻意把社會網絡限縮到只留下最具意義的關係，是享受剩餘人生較少時的合理反映。但並非老人永遠都是選擇善用，年輕人永遠都選擇開發：

選項	年輕人	老人
選擇飯友	【開發】傾向選擇新朋友	【善用】傾向選擇家人或老友
選擇是否搬到國外	【善用】傾向選擇家人留在家鄉	【善用】傾向選擇家人留在家鄉
選擇是否選擇新的醫療技術，讓自己延年益壽	【開發】是	【開發】是

如果把未來的人生視為好好運用幾十年來累積的知識的機會，最大的收穫應是這句話：開發者用樂趣換取知識，人生應該越過越好。

albert's blog

Total Pageviews

2021/06/03

[閱讀筆記] Algorithms to Live By - 開發與善用 (Explore / Exploit)

No comments: