Total Pageviews

2021/09/17

[閱讀筆記] HOW NOT TO BE WRONG - 第15章:高爾頓的橢圓 (Galton’s Ellipse)

 

  1. Francis Galton 的研究已證明,只要研究的的對象受機率的力量影響,平均值迴歸就會起作用。

  2. 散佈圖 (Scatter Diagram / Scatter Plot) 

說明

是品管七大手法之一,用來分析一對參數間之關係,將成對之數據繪製在X-Y圖上,藉此找出兩者間之關係。

常見的幾種散佈圖

Francis Galton 發現身高與遺傳呈現平均值迴歸的現象

由遺傳與機率互相影響的散佈圖,具有一種絕非隨機的幾何形狀,它們看起來或多或少都被圈在一個橢圓形裡面,而中心恰好是親子都剛好是平均值的點。

散佈圖之製作

  • ① 針對想要了解兩者關係的參數﹐收集 50 ~ 100 對數據。

  • ② 繪出 x-y 軸,兩者等長較易於解讀,兩者間若有因果關係,將因至於橫軸,果置於縱軸。

  • ③ 將所收集之數據繪在圖上。

  • ④ 解讀散佈圖。

氣溫與冰淇淋銷量間的關係

可以透過 scatter plot 看出,天氣越炎熱,冰淇淋銷量越好,但關係不是非常完美:

過去 100 年間,sea level 的變化

可以透過 scatter plot 看出,sea level 逐年上升,成正相關

Reference


  1. 真實生活的數據畫出來的散佈圖,通常都會排出粗略的橢圓

2004 年 John Kerry 與 2008 年 Barack Obama 的得票率

每一個點代表一個眾議院選區,這個橢圓明顯瘦長,代表兩者得票率高度相關,這些點明顯的在對角線上,反映出 Obama 得票表現優於 Kerry 的事實 (正相關)。

Google 與 GE (General Electric) 每日股價變化狀態

兩間公司每日股價變化成正相關

SAT 平均分數與 State of North Carolina 州立大學學費間的關係

兩者關係成正相關

2004 年小布希在美國 50 個州的得票率散佈圖

較富裕且自由主義主導的康乃狄克州 (CT) 出現在右下方,共和黨居多且財力有限的愛達荷州 (ID) 出現在左上方。兩者呈現負相關,富裕州偏民主黨,非富裕州偏共和黨,橢圓呈現西北往東南走勢


  1. 《The Triumph of Mediocrity in Business》提出其研究發現,原本具領先優勢的企業,會隨著時間進展,喪失其原本優勢,雖然他們還是優於平均,但整體來說,已不再是特別傑出的一群企業。隨時間進展,企業表現趨於平庸也是平均值迴歸的一種現象,高超的管理與商業眼光固然扮演重要角色,但是運氣大概也有相等的分量

  1. 代數的好處在於容易寫下式子,並打進計算機;幾何的好處在於能把我們的物理直覺與情境連結起來,特別是當你能畫出一幅圖像時。當你有能力用幾何語言講清楚一段數學,就會感覺自己真正搞懂了。

  2. 相關係數計算

題目說明

某財務軟體公司在全國有許多代理商,為研究它的財務軟體產品的廣告投入與銷售額的關係,統計人員隨機選擇10家代理商進行觀察,搜集到年廣告投入費和月平均銷售額的數據,並編製成相關 (https://reurl.cc/xg6G24)

Scatter Plot

透過 scatter plot 可以看出,廣告費投入與銷售額兩者間呈現正相關。

計算過程

  • excel function:CORREL(年廣告費投入資料, 月均銷售額資料), 例如,CORREL(A2:A11, B2:B11)

  • 相關係數 = 0.9942

  • 相關係數 r = 0.9942 > 0.63,廣告投入費與月平均銷售額之間有高度的線性正相關關係

很可能不是碰巧發生的相關性


Sample Size

被視為具有統計顯著性的最小相關性

5

.88

10

.63

15

.51

20

.44

25

.40

30

.38

60

.26

100

.20



  1. 計算喜歡起司與喜歡起司蛋糕間的「相關係數」


  1. 計算結果只能看出是否有相關性,「不是」因果關係。例如,血液濃度的 HDL 與心肌梗塞有關,但是經過研究,服用菸鹼酸來刻意提高 HDL 濃度的受試者,得到心肌梗塞與腦中風的比例與一般人一樣。從測試結果可發現,菸鹼酸可以提高HDL 濃度,高 HDL 濃度能降低心肌梗塞與腦中風的風險,但是,這不代表菸鹼酸能降低心肌梗塞與腦中風的風險。人的身體是極為複雜的系統,我們只能量度其中極少的特徵,更不要說想擺布它。以我們觀察到的相關因素為基礎,會有非常多藥物有可能達到治療效果,但當你將其拿來逐一實驗,大部分都以失敗收場。

  1. 以下是根據 2011/12/15 公共政策民意調查所繪製的圖,圖裡有 1000 個圓點,每一個點代表每個選民,回答的 23 個民調問題,可看出此選民是偏左或偏右,支持歐巴馬、肯定民主黨的選民會偏右邊;喜歡共和黨的選民會偏左。我們會發現,當選民獲得的訊息越多,只是讓原本左右兩邊的人走向更極端,居中人口稀疏地帶更加稀疏。大體來說,未決定的選民之所以未決定,並不是因為他們不受政治教條的偏見影響,客觀且小心提衡量各個候選人的優缺點,而是他們幾乎沒在注意這件事

  1. 數學工具就跟其他科學工具一樣,能偵測到某類現象,卻不能偵測別類現象,正如你的相機沒有能力偵測到伽瑪射線 (或γ射線)。當你知道自然界或社會裡的兩種現象不相關,請把這件事放在心上:這並不意味著兩者毫無關係,只是不存在「相關」的原始設計中,所以無法偵測到那類關係。

No comments: