Total Pageviews

2021/09/17

[閱讀筆記] HOW NOT TO BE WRONG - 第15章:高爾頓的橢圓 (Galton’s Ellipse)

 

  1. Francis Galton 的研究已證明,只要研究的的對象受機率的力量影響,平均值迴歸就會起作用。

  2. 散佈圖 (Scatter Diagram / Scatter Plot) 

說明

是品管七大手法之一,用來分析一對參數間之關係,將成對之數據繪製在X-Y圖上,藉此找出兩者間之關係。

常見的幾種散佈圖

Francis Galton 發現身高與遺傳呈現平均值迴歸的現象

由遺傳與機率互相影響的散佈圖,具有一種絕非隨機的幾何形狀,它們看起來或多或少都被圈在一個橢圓形裡面,而中心恰好是親子都剛好是平均值的點。

散佈圖之製作

  • ① 針對想要了解兩者關係的參數﹐收集 50 ~ 100 對數據。

  • ② 繪出 x-y 軸,兩者等長較易於解讀,兩者間若有因果關係,將因至於橫軸,果置於縱軸。

  • ③ 將所收集之數據繪在圖上。

  • ④ 解讀散佈圖。

氣溫與冰淇淋銷量間的關係

可以透過 scatter plot 看出,天氣越炎熱,冰淇淋銷量越好,但關係不是非常完美:

過去 100 年間,sea level 的變化

可以透過 scatter plot 看出,sea level 逐年上升,成正相關

Reference


  1. 真實生活的數據畫出來的散佈圖,通常都會排出粗略的橢圓

2004 年 John Kerry 與 2008 年 Barack Obama 的得票率

每一個點代表一個眾議院選區,這個橢圓明顯瘦長,代表兩者得票率高度相關,這些點明顯的在對角線上,反映出 Obama 得票表現優於 Kerry 的事實 (正相關)。

Google 與 GE (General Electric) 每日股價變化狀態

兩間公司每日股價變化成正相關

SAT 平均分數與 State of North Carolina 州立大學學費間的關係

兩者關係成正相關

2004 年小布希在美國 50 個州的得票率散佈圖

較富裕且自由主義主導的康乃狄克州 (CT) 出現在右下方,共和黨居多且財力有限的愛達荷州 (ID) 出現在左上方。兩者呈現負相關,富裕州偏民主黨,非富裕州偏共和黨,橢圓呈現西北往東南走勢


  1. 《The Triumph of Mediocrity in Business》提出其研究發現,原本具領先優勢的企業,會隨著時間進展,喪失其原本優勢,雖然他們還是優於平均,但整體來說,已不再是特別傑出的一群企業。隨時間進展,企業表現趨於平庸也是平均值迴歸的一種現象,高超的管理與商業眼光固然扮演重要角色,但是運氣大概也有相等的分量

  1. 代數的好處在於容易寫下式子,並打進計算機;幾何的好處在於能把我們的物理直覺與情境連結起來,特別是當你能畫出一幅圖像時。當你有能力用幾何語言講清楚一段數學,就會感覺自己真正搞懂了。

  2. 相關係數計算

題目說明

某財務軟體公司在全國有許多代理商,為研究它的財務軟體產品的廣告投入與銷售額的關係,統計人員隨機選擇10家代理商進行觀察,搜集到年廣告投入費和月平均銷售額的數據,並編製成相關 (https://reurl.cc/xg6G24)

Scatter Plot

透過 scatter plot 可以看出,廣告費投入與銷售額兩者間呈現正相關。

計算過程

  • excel function:CORREL(年廣告費投入資料, 月均銷售額資料), 例如,CORREL(A2:A11, B2:B11)

  • 相關係數 = 0.9942

  • 相關係數 r = 0.9942 > 0.63,廣告投入費與月平均銷售額之間有高度的線性正相關關係

很可能不是碰巧發生的相關性


Sample Size

被視為具有統計顯著性的最小相關性

5

.88

10

.63

15

.51

20

.44

25

.40

30

.38

60

.26

100

.20



  1. 計算喜歡起司與喜歡起司蛋糕間的「相關係數」


  1. 計算結果只能看出是否有相關性,「不是」因果關係。例如,血液濃度的 HDL 與心肌梗塞有關,但是經過研究,服用菸鹼酸來刻意提高 HDL 濃度的受試者,得到心肌梗塞與腦中風的比例與一般人一樣。從測試結果可發現,菸鹼酸可以提高HDL 濃度,高 HDL 濃度能降低心肌梗塞與腦中風的風險,但是,這不代表菸鹼酸能降低心肌梗塞與腦中風的風險。人的身體是極為複雜的系統,我們只能量度其中極少的特徵,更不要說想擺布它。以我們觀察到的相關因素為基礎,會有非常多藥物有可能達到治療效果,但當你將其拿來逐一實驗,大部分都以失敗收場。

  1. 以下是根據 2011/12/15 公共政策民意調查所繪製的圖,圖裡有 1000 個圓點,每一個點代表每個選民,回答的 23 個民調問題,可看出此選民是偏左或偏右,支持歐巴馬、肯定民主黨的選民會偏右邊;喜歡共和黨的選民會偏左。我們會發現,當選民獲得的訊息越多,只是讓原本左右兩邊的人走向更極端,居中人口稀疏地帶更加稀疏。大體來說,未決定的選民之所以未決定,並不是因為他們不受政治教條的偏見影響,客觀且小心提衡量各個候選人的優缺點,而是他們幾乎沒在注意這件事

  1. 數學工具就跟其他科學工具一樣,能偵測到某類現象,卻不能偵測別類現象,正如你的相機沒有能力偵測到伽瑪射線 (或γ射線)。當你知道自然界或社會裡的兩種現象不相關,請把這件事放在心上:這並不意味著兩者毫無關係,只是不存在「相關」的原始設計中,所以無法偵測到那類關係。

2021/09/16

[閱讀筆記] HOW NOT TO BE WRONG - 第14章:平庸會出頭 (The Triumph Of Mediocrity)

 

  1. 👫 Francis Galton 在 1889 年出版的《Natural Inheritance》書中寫道:「不管乍看之下有多難以置信,它卻是理論上必然的事實,同時能從觀察裡清楚得到確認,相較於雙親,成年後代的身材會更加中等。」Galton 發現,身高較矮的父母,他們的子女雖然會偏矮,但並沒有像父母這麼矮;身高較高的父母,他們的子女雖然會偏高,但可能沒有像父母這麼高。

  2. Galton 因此推論,除了身高遺傳,智力成功應該也有類似現象。他的想法與常識經驗吻合,偉大作曲家、科學家、政治領袖的子女,經常在同一領域表現出色,但是很少如父母那麼耀眼。

  3. 🌍 宇宙的運轉,有必然性及隨機性。必然性使人願意努力,隨機性使人對未來充滿盼望。諸如兩次測驗成績以及兩代的各種表現等,常有均值迴歸效應 (regression toward the mean),在智商及遺傳等必然性之外,增添了隨機性 (Ref: https://reurl.cc/Nr1n49)。

  4. 📚 🎵 第一本書就造成轟動的作家、或首發專輯就爆紅的流行樂團,他們的第二本書、第二張專輯,為什麼極少數會如同上一次這麼受歡迎?這並不完全是大多數藝術家僅有一件值得發表的心血結晶,而是因為藝術成就裡混雜了天賦與運氣,就像生活中其他的東西,也逃不過均值迴歸的影響

  5. 🏈 簽下多年高薪肥約的美式足球員,簽約後的下一季,接球後能跑的碼數往往會減少。有人說他們喪失多跑幾碼的金錢誘因,這種心理因素或許有些許影響,但另一個重要因素是,正因為他們當年表現極好,才能獲得肥約;緊接著下一季,因均值迴歸,表現迴歸平均水準。

  6. ⚾ 以 MLB 的歷史資料顯示,平均來說,強打者在下半季的全壘打數,只達上半季的 60%。以 Mickey Tettleton 為例,1993 年上半季打出 24 發全壘打而領先群雄,但下半季只打出 8 發全壘打。不只 Tettleton,整個聯盟的強打者都有類似傾向,這單純就是向平均值迴歸的現象。人的心理對於向平均值迴歸的現象有些抗拒,看似強大的打者,鮮少名副其實地強大

  7. 迴歸是生命體特有的性質,從親代到子代的過程中,迴歸使變異強度減輕,物種得以保持其類型。親代會因子代而迴歸,所以不正常的孩童的父親,子代通常較正常,以減輕雙親不正常的程度。

2021/09/15

[閱讀筆記] HOW NOT TO BE WRONG - 第13章:火車鐵軌相交之處 (Where The Train Tracks Meet)

 

  1. 假設你有一個 1/2 輸贏的賭注,輸了付 10 萬,贏了拿走 20 萬,這賭注的期望值是 12(-10萬)+1220萬=5萬。平均每賭一次就可以拿走 5 萬,六次就可拿走 30 萬,跟你直接拿錢一樣。

  2. 對有錢人來說,$1000 = 1U;對於普通且收入微薄的人,$1000 可能等於 20U。對收入微薄的人來說,50% 一敗塗地的機會,是無法承擔的風險,再不保證可以獲得巨大報酬的情況下,不該冒險;對有錢人來說,有足夠的銀彈奧援,能吸收偶發的損失,因持續投資而更加富有,不夠錢的窮人只能原地踏步

  1. 變異數 (variance) 用來量度決策產生的各種結果的分散程度,也告訴你有多少可能性會碰到兩端的極端值。

投資標的

變異數 (variance) 

說明

債券

波動大、獲利小

股票

波動大、有可能大賠或大賺


  1. 理財的主要挑戰之一就是與變異數打仗,正因為是變異數,所以退休基金必須分散持股。若你把退休金都放在石油與天然氣股票,一旦能源受到重創,你的投資組合就會灰飛煙滅。Burton Malkiel 於《A Random Walk Down Wall Street》書中提到,你應把儲蓄投入一個巨大指數基金的原因,也許很乏味,但是會很有成果

  2. 投資普通股票和債券的持有期越長,風險就越低,但是你得有耐性忍受過程中,投資價值逐年波動的情形;S&P 500指數的表現,長期優於共同基金與機構投資人的平均績效。成長型和價值型共同基金能勝過股票指數的,屈指可數。(Ref: 《A Random Walk Down Wall Street》)

  3. 在業餘網球賽中,得分大都不是靠我方的熟練表現,而是靠敵方的失誤而來,投資也是如此。大部分投資人都是自己打敗自己,因為他們採取錯的股市策略,而不是採納被動長期投資指數方法(buy-and-hold indexing approach)。(Ref: 《A Random Walk Down Wall Street》)

  4. 法諾平面 (Fano plane)

投影平面(projective plane)

在數學裡,投影平面(projective plane)是一個延伸平面概念的幾何結構。在普通的歐氏平面裡,兩條線通常會相交於一點,但有些線(即平行線)不會相交。投影平面可被認為是個具有額外的「無窮遠點」之一般平面,平行線會於該點相交。因此,在投影平面上的兩條線會相交於一個且僅一個點。

投影平面 (projective plane) 的幾何遵守的公設

  • Any two lines intersect at a unique point.

  • Any two points are connected by a line.

  • There exist four points such that no three are on the same line.

法諾平面 (fano plane)

fano plane 應用於彩票

  • 【規則】號碼總共 1 ~ 7 號,玩家選三個號碼, 3 個都猜對就獲頭獎,或者猜對 2 個得小獎。

  • 【技巧】從7個數中選3個,一共有35種可能的組合 (C37=7!4!3!=5040246=35),所以說你只有 1/35 的機會中頭獎。不過你可以利用法諾平面來增加你猜中兩個數小獎的機會。

  • 【實例】在 fano plane 給 7 個點依次標上 1 ~ 7,接著看每條線上的數字。我得到了124、135、175、236、347、257、456。你會發現每個數對都恰好出現了一次。不管中獎的數字是哪些,我們都至少猜中了3個中的2個。如果你標數字的順序和我不一樣,你會得到不同的數組,不過還是有同樣的性質。

技法的真相

這是簡單的幾何,每一對數字恰巧出現在一張彩券,因為每一對點線恰巧屬於一條線。


  1. 錯誤更正碼 (error-correction code) 機制

說明

  • 這是一種通訊協定,能幫助接收者在有雜訊干擾的狀況下消除錯誤。

  • 工程師為了解決訊號干擾,仍在苦苦掙扎,因為你越希望信號能抵抗雜訊干擾,訊息就會越長且傳送緩慢。在一定時間內,你的通道能可靠傳送的訊息長度,會受制於雜訊的存在

漢明碼 (Hadamard Code)

  • 在通訊領域,漢明碼又稱為海明碼,於1950年,由美國數學家理查德·衛斯里·漢明 (Richard Wesley Hamming) 發明,相較於基偶同位元檢查,除了不能糾正錯誤,且也只能偵測到錯誤,而漢明碼主要功能是具有1位元錯誤偵測與更正功能,能找出錯誤位元的位置。

  • 公式﹕m + r + 1 <= 2^r,m為資料所具有的位元數,例如m=8表示有8位元。 r 為檢查位元數(漢民碼的長度)

  • 假設資料有4位元,m=4,則(4+1)+r<=2^r,r為3,因 (4+1)+3<=2^3

  • 假設資料有8位元,m=8,則(8+1)+r<=2^r,r為4,因 (8+1)+4<=2^4 漢明碼為資料和檢查碼的結合,8bits(原始資料)+4bits(檢查碼),所以漢明碼為12位元所組成。

漢明碼 (Hadamard Code) 產生

漢明碼 (Hadamard Code) 還原

  • 假設接收資料受到干擾,最終找出第 10 位元有誤,應從 0 改為 1

  • 假設接收資料受到干擾

  • 假設接收資料未受到干擾


  1. 透過 Hamming 的發明加上後人持續改進,錯誤更正瑪已改變整個通訊工程。建造多重防止並檢查錯誤的機器已經不再是目標,因為有 Hamming 的貢獻,只需使錯誤盡量少發生,錯誤更正碼的彈性就足夠抵抗雜訊影響。現在,任何需要快速、可靠傳送資料的地方,就會找到錯誤更正碼的存在,例如,環繞火星的水手 9 號把火星表面的照片送回地球時,使用了稱為阿達瑪碼 (Hadamard code) 的錯誤更正碼;光碟片使用 Reed-Solomon Code 的錯誤更正碼,即使以刮傷光碟表面,聲音仍然完好。

  2. 任何禁得起雜訊干擾的通訊系統,都基於相同原理。自然語言也根據相同原理運作,例如,我把 language 誤寫成 lanvuage,你會知道我原本想寫什麼。但是 dog, cog, bog, log 這些常見的字,上述道理就不管用,如果雜訊把第一個音節搞砸,就沒辦法知道原來想說的是哪一個,不過在此例子裡,可以用字與語意距離來幫你校正錯誤,如果會咬你可能就是 dog,如果會從上面摔下來可能是 log (圓木),以此類推。

  3. CRC (Cyclic Redundancy Check,循環冗餘檢查)  被廣泛運用於通訊或其他序列傳輸的系統中,方法為運用同餘多項式運算,在原有訊號之後加入一串稱為 FCS (Frame Check Sequence) 的檢驗序列。Checksum 的產生機制很簡單,將資料分成 K 小塊之後,將每塊的所有值全部相加之後得到一個數字,再取其 1′ 補數,就可以得到 Checksum。Checksum 的檢查機制則是將所有收到的 K 個小塊中所有值相加再加上 Checksum 後,再取其 1′ 補數,若結果為 0 則表示正確,不為 0 則表示傳輸中有發生錯誤 (https://reurl.cc/rgdDKk)。

  1. 人會以階級而非數值量來思考財富。如果你是中產階級的勞工,每周花 $5 美元購買樂透彩,輸錢雖然是損失,但負效用幾乎近於 0,然而若你獲得頭彩,就會讓你的社會階層往上移動。你可把這個想成「臨終在床」(deathbed) 模型,你會介意在撒手人寰前,因為投注樂透而財產少一些嗎?我想不會;但如果你中頭彩,35 歲就能退休,把餘生都在遊山玩水與享樂,你會在意嗎?當然會!

  2. 在樂透彩的情境,人類會給低機率事件較大的權重,得頭獎的誘惑力會衝破根據嚴格計算期望效用所允許的程度。

  3. 大樂透成癮的賭徒與創業家兩者相同,都遇到勝少敗多的狀況。難道企業家精神也是一種政府向愚人徵的稅嗎?當然不是,差別在於經營生意的效用,正如同買樂透的效用,並非僅從期望的金額來量度。能實現一個夢想,甚至只是嘗試去實現它,就已經得到回報

2021/09/14

[閱讀筆記] HOW NOT TO BE WRONG - 第12章:錯過更多班機 (Miss More Planes!)

 

  1. 芝加哥大學教授及1982年諾貝爾經濟學獎得主 George Stigler 曾說:「如果你從沒錯過航班,那麼你就是在機場耗費太多時間了 (太早到機場)。」主流經濟學認為,人依靠理性做決策時會追求效用 (utility)。

Scenario 1

  • 假設待在家一小時是 1U、提早兩小時去機場是 -2U、錯過航班 -6U提早 1.5 小時到機場能獲得最大效用

Scenario 2

  • 假設待在家一小時是 1U、提早兩小時去機場是 -2U、錯過航班 -20U提早 2 小時到機場能獲得最大效用


  1. 消滅浪費也有成本,就像提早去機場也會有成本。嚴格執法與強力監督是值得追求的目標,但是消滅所有浪費,正如消滅極微小的誤機機率,所需成本更勝於獲利

  2. 聖彼得堡悖論 (St. Petersburg paradox):由尼古拉一世·伯努利提出,這個悖論源自一個丟硬幣遊戲:出現正面可得 2 元,下次又是正面則獎金加倍,以此類推,直到出現反面為止。那麼你願意花多少錢參加這個遊戲?若按期望值來算,其期望值是無限大( 2*½ + 4*¼ + 8*1/8 + …… ),但顯然沒有人願意掏出幾十元來玩這遊戲;這個矛盾如何解釋?丹尼爾用「邊際效用遞減原理」與「最大效用原理」做出合理的解釋,成為現代經濟學的基礎。(Ref : https://reurl.cc/DvRVom)

  3. 邊際效益遞減法則 (The law of diminishing marginal utility):只要手邊同個產品的數量持續增加,你對它的喜愛程度會逐漸下滑。廠商之所以會推第二份半價、續杯折扣的促銷方案,就是知道消費者買了更多產品,邊際效益會隨之降低。用這個概念來思考研發和改善產品功能,你可以進一步省思追求極致、完美的必要性,畢竟當產品的品質好到一個程度後,大多數消費者可能就分辨不出或感受不到了。拿耳機來說,廠商很努力提升播放音質,一開始顧客會發現聲音變清晰、雜音消失了,但是接下來,就愈來愈少人能感覺到音質的進步。(Ref : 《Poor Charlie’s Almanack》)

  1. 效用最大化 (maximization of utility):在風險和不確定條件下,個人的決策行為準則是為了獲得最大期望效用值而非最大期望金額值。

  2. 每個人的效用曲線都不盡相同

雷伯維茲效用曲線

曼昆效用曲線

  • 雷伯維茲在年輕時在曼哈頓開計程車,當月所賺的錢足以支付房租與飲食後,就停止開,動手寫作到該月底。對雷伯維茲來說,付了房租以後,效用 = 0,效用曲線趨於平坦。

  • 若遇到加稅,會被迫工作更久時間,好讓自己的收入達到門檻。

  • 目前已達平衡狀況,若多做 1 小時,會被少與子女相處一小時的效用抵銷。

  • 若遇到加稅,會減少工時。


  1. 金錢不能以它的數量值來估算:金錢只是財富的符號,假如它就是財富本身,也就是說從財富中得到的快樂或福利,會確實的與金錢呈現正比,那麼人就有理由以金錢的數量來估算財富。但在生活必需的部分,人從金錢中所得到的福利,往往僅適度的與它的數量呈正比,擁有 1000 萬的富人,快樂程度並非擁有 100 萬的人的十倍。有些東西是勝過金錢的,當金錢超過某種限度,就會失去具體價值,不能再繼續增加擁有者的福祉

  2. 風險 (Risk) 與不確定性 (Uncertainty)

風險 (Risk)

不確定性 (Uncertainty)

是可觀察、可預見、有時還可量化改變、通過財務或運營等各種工具管理

是不可觀察、預見、量化

可控制

不可控

可測量

無法測量

結果有機會資料

結果未知

遇到風險問題時,計算分析很重要

遇到不確定性時,戰略思考很重要

Risk is measurable uncertainty

Uncertainty is unmeasurable risk

Ref: https://reurl.cc/5oeogM