Total Pageviews

2021/05/03

[閱讀筆記] Statistics Hacks (3/6)

 

  1. 統計感興趣的一直都是變數間的關係 (relationships among variables)。舉例來說,相關係數 (correlation coefficient) 是兩組分數間關係的強度和方向的指數 (index)。測量關係的統計程序的例子包括 t 檢定;以及一次比較兩個以上群組的變異數分析 (analysis of variance)。

  2. 三種典型的效應大小類型

effect size type

說明

相關係數

(correlation coefficient)

  • 相關性 (corrleation) 以符號 r 來代表,是變數間關係的度量,是一種效應大小

  • 由於相關性可能是負值,所以有時會被平方已產生一個永遠 > 0 的值,即 r2 (變異比例, proportion of variance)。

d

  • 用於 t 檢定中的兩個群組平均 (group mean) 之間的差。

d=tSample Size in Group 1 + Sample Size in Group 2(Sample Size in Group 1) (Sample Size in Group 2)

Eta 平方 (Eta-squared)

  • 最常為變異數分析的結果所回報的效應大小被符號化為2

  • 被解讀為應變數(結果變數)中受到獨立變數影響的「變異比例」。

解讀 effect size 多大算大的經驗法則


effect size

r

±.10

±.30

±.50

r2

.01

.09

.25

d

.2

.5

.8

2

.01

.06

.14


 

  1. 如何解讀研究發現

解讀研究發現

說明

例子

統計顯著性

(statistically significant)

回答這個關係可能出現在母體嗎?

服用 aspirin 的患者,心臟病發的可能性是服用安慰劑哪組的 50%,代表有統計顯著性

效應大小

(effect size)

回答這個關係有多大?

運用比例式比較 (proportional comparison) 的公式,此研究的 effect size = .06 個標準差,or .06 的 d,代表 aspirin 與心臟病的關係真實存在,但是沒有很強烈

顯著性 (significance) 告訴你的是此關聯可能存在於母體中,若是效應很小,使得沒人對它有興趣。


  1. 【Hack #11】 Discover Relationships (發現關係):只要記錄觀測值並計算神奇又玄妙的相關係數 (correlation coefficient),就能揭露世界中隱藏的關係。統計研究人員會把假設 (assumption) 稱為:關於變數 (variables) 間關係的假說 (hypotheses)。

  1. 計算「相關係數」:計算結果只能看出是否有相關性,「不是」因果關係


受訪者

對起司態度

對起司蛋糕態度

起司的 Z-scores

起司蛋糕的 Z-Scores

Z-scores 的乘積

Larry

50

36

1.09

1.13

1.23

Moe

45

35

0.77

1.00

0.76

Curly

30

22

-0.19

-0.75

0.14

Shemp

30

25

-0.19

-0.35

0.07

Groucho

10

20

-1.47

-1.02

1.50

平均數

33.00

27.60

相關係數

0.93

(ZxZy)N - 1

標準差

15.65

7.44

計算結果

非常接近 1.0,有強烈正相關 (positive correlation)


  1. 為任何兩個變數間產生相關係數(關係強度的度量值)適用於:

相關係數適用性

說明

① 數字必須有真正的意義,且代表某種底層的連續概念

連續變數 (continuous variable) 包含溫度、薪資等;類別變數 (categorical variable) 包含性別、教育程度、宗教信養、考試名次等。

② 變數必須有變動

如果每個人對起司的感受都相同,你就無法計算與起司蛋糕或巧克力或其他東西的態度之相關性。

③ 具備統計顯著性所需的最小相關性大小

如下表所示,而且只有在樣本是隨機從母體抽取的情況下才會精準。


很可能不是碰巧發生的相關性

Sample Size

被視為具有統計顯著性的最小相關性

5

.88

10

.63

15

.51

20

.44

25

.40

30

.38

60

.26

100

.20


  1. 相關係數計算

題目說明

某財務軟體公司在全國有許多代理商,為研究它的財務軟體產品的廣告投入與銷售額的關係,統計人員隨機選擇10家代理商進行觀察,搜集到年廣告投入費和月平均銷售額的數據,並編製成相關 (https://reurl.cc/xg6G24)

計算過程

  • excel function:CORREL(年廣告費投入資料, 月均銷售額資料), 例如,CORREL(A2:A11, B2:B11)

  • 相關係數 = 0.9942

  • 相關係數 r = 0.9942 > 0.63,廣告投入費與月平均銷售額之間有高度的線性正相關關係


  1. 【Hack #12】Graph Relationships (圖形關係):只要兩個變數間的某個關係被發現而且有了定義,我們就能使用其中一個變數來猜測另一個,畫出一條迴歸線 (regression line) 能讓你圖形化這個關係並做出預測。

 

例如,我們可以產生以下公式來預測華氏氣溫幾度時,會賣出幾份冰淇淋

Cones Sold = 15+(Temperature .50)

  1. regression line 的適用性

regression line

說明

適用於

  • 變數間的關係必須相當大:關係強度小的話,會產生散佈於各處的點,變成完全不是直線的模式。

  • 變數間的關係必須是線性或至少接近線性

不適用於

  • 變數關係不是線性:依據線性迴歸的要求,迴歸方程式永遠都會產生一條直線,若關係不是線性,迴歸方程式就會犯錯。


  1. 【Hack #13】Use One Variable to Predict Another (使用一個變數來預測另一個):simple linear regression 是度量看不見的東西或預測尚未發生的事件結果的強大工具。藉由統計學的幫忙,你就能在只看到另一個變數表現時,準確猜測某人在目標變數上可能的 scores。迴歸分析(Regression Analysis)是利用一組自變數(或稱預測變數、獨立變數、predictor variable)對某一因變數(或稱準則變數、criterion variable)建立關係式以便做為預測的依據,它也可以做為評估自變數對因變數的效用。迴歸的主要目的是做預測,只用一個自變數來預測應變數稱為 simple linear regression;用一個以上的自變數來預測因變數稱為 complex linear regression。

變數

變數類型

平均數

標準差

ACT Scores

自變數 (predictor variable)

20.10

2.38

GPA Scores

因變數 (criterion variable)

2.98

0.68


Weight=correlation coefficientCriterion Standard DeviationPredictor Standard Deviation=0.55.682.38=.16

Constant = Criterion Mean-(WeightPredictor Mean)=2.98-(.1620.1)=-.24

Criteria=Constant+(PredictorWeight)

Predict GPA=-.24+(ACT Score.16)

申請人

ACT Score

Predict GPA

Melissa

26

-.24+(26.16)=3.90

Bruce

14

-.24+(14.16)=2.00


  1. regression analysis 的適用性

regression analysis

說明

適用於

  • 兩個變數彼此相關 (correlate),你就可以用一個相關變數來預估另一個變數與平均的變異 (包含平均值、標準差和相關係數等資訊)

不適用於

  • 若兩個變數間的相關性不完美,預測的準確性也不會完美:由於沒有完美的 1.0 相關性存在,你可以用估計的標準差 (standard error of estimate) 來判斷你的誤差大小。

  • 變數的關係強度的分佈不是線性:若變數的關係強度的分佈不是線性,預測就會產生很大的誤差。

  • 收集的資料沒有代表性:若一開始收集來建立迴歸方程式中的那些資料沒有代表性,預測結果也會有錯。


  1. 【Hack #14】Use More Than One Variable to Predict Another (使用多個變數來預測另一個):統計學家經常會使用一個變數來預測另一個變數,以回答疑問並運用相關性資訊來解決問題。不過為了更精確地預測,可使用多元迴歸 (multiple regression) 將多個預測變數結合到單一個 regression equation 中。multiple regression 較 simple regression 準確,因 mutiple regression 知道每個 predictor 之間的關聯性,並建立更準確的權重。例如,以下從一個預測變數(自變數)變成多個預測變數,每個 predictor 都有自己的權重:

一個自變數:Criteria=Constant+(PredictorWeight)

三個自變數:Criterion=Constant+(Predictor 1 Weight 1)+(Predictor 2 Weight 2)+(Predictor 3 Weight 3)

產生預測 GPA 公式 (權重是虛構,ACT Score 的 .02 權重比 Attitude Score 大,並不是代表前者比後者重要,只是單純是所使用的尺度<scale> 不同。ACT Score 範圍是 1.0 ~ 4.0,Attitude Score 範圍則是 20 ~ 100):Predicted GPA = 3.01 + (ACT Score * .02) + (Attitude Score * .007) + (Essay Score * .025)

標準化權重 (standardized weights) 是將原始資料轉換為 z scores,即每個原始分數與平均值之間的距離以標準差表達,如此一來就能公平比較並被理解。

自變數

非標準化權重

標準化權重

Constant

3.01

-

ACT Score

.02

.321

Attitude Score

.007

.603

Essay Score

.025

.156


  1. 【Hack #15】Identify Unexpected Outcomes (識別出未預期的結果):要如何得知觀測是正確的還是有所偏差?要如何知道比起碰巧發生,那多少有背後的原因存在?你可以使用單向卡方檢定 (chi-square test) 來確定這些事。此檢定名稱是因為用於所產生的臨界值 (critical value) 的符號是一個 X,它是希臘字母 chi (唸做「凱」),計算中所需的值都會經過平方運算 (squared),因此稱作 chi-square or chi-squared。

犯罪事件數

0:00 ~ 8:00

8:00 ~ 16:00

16:00 ~ 0:00

Total

120

90

90

300

【檢測目的】不同時段會發生不同數量的犯罪是件數,這是偶然嗎?

計算過程

Chi-square=(Observed Frequency-Expected Frequency)2Expected Frequency

假設犯罪事件總數 300 件,預期三個時段平均各出現 100 件 (3003):

Chi-square=(120-100)2100+(90-100)2100+(90-100)2100=400100+100100+100100=6

顯著水平 .05 的關鍵卡方值


2 個類別

3 個類別

4 個類別

5 個類別

3.84

5.99

7.82

9.49

  • 卡方值 6 > 5.99,代表母體中確實存在有不同時段產生不同犯罪次數的差異。

  • 因為這些差異是「真的」,我們就能合理地根據此資料排定一整年的警察巡邏班表。


chi-square 適用性


適用於類別資料 (categorical data)

  • 類別資料如性別、政黨、種族等。

  • 透過 chi-square 你可以判斷在特定類別中是否有分數的出現次數比預期中偶然發生的還要多。

  • chi-square 會為每個類別計算出預期和觀測間的差異,這些差異會與預期次數進行比較,然後將這些 ratios 加再一起,產生的數字大小決定偶然發生的可能性,數字越大,偶然性越低

適用於適合度檢定統計量 (goodness-of-fit statistic)

  • 研究人員有一個信念體系 (belief system),由一些模型或假說所構成,說明世界如何運作。然後他會收集資料,並把觀測結果與他的模型做比較。若資料符合模型,就支持了他的假說。



  1. 【Hack #16】Identify Unexpected Relationships (識別出未預期的關係):如果你想要驗證兩個變數間觀察到的某種關係是否存在,你可以使用雙向卡方檢定 (two-way chisquare test)。這裡有幾個你可能有的假設,隱含著類別變數間的某種關係:學生經常上課心不在焉;電腦程式設計師會玩寶可夢;收集漫畫書的大人會撰寫 Statistics Hacks 這種書。此hack 用來判斷我們持有的某種刻板印象是否正確

單向 / 雙向卡方檢定

二者通用的卡方公式

Chi-square=(Observed Frequency-Expected Frequency)2Expected Frequency

假想的選民樣本


政黨

男性

女性

總數

共和黨

45

30

75

民主黨

34

41

75

總數

79

71

150


計算過程


政黨

男性

女性

共和黨

7579150=39.5

7571150=35.5

民主黨

7579150=39.5

7571150=35.5


卡方值=(45-39.5)239.5+(34-39.5)239.5+(30-35.5)235.5+(41-35.5)235.5=3.24

顯著水平 .05 的關鍵卡方值


2 個類別

3 個類別

4 個類別

5 個類別

3.84

5.99

7.82

9.49

  • 卡方值 3.24 < 3.84,代表我們無法宣稱此統計顯著性

  • 雖然在樣本好像顯示政黨與性別兩個類別間有關係,但可能是隨機的抽樣誤差而產生,實際上沒有任何這種關係存在


  • 任何時候只要你有兩個類別變數,且想要看看是否其中一個變數對另一個有某種相依性 (dependency),有時被稱為列聯表分析 (contingency table ayslyses) 的說像卡方分析就能派上用場。上述例子用到僅有兩個類別的變數,但類似的分析也能用於具有許多類別的變數之上。雖然技術需求複雜些,但程序是相同的。


  1. 【Hack #17】Compare Two Groups (比較兩個群組):哪個比較好?誰擁有比較多?人與人之間真有差異嗎?如果你想要為你的這些關於最好、最多或最少的信念找出一些真實的證據,你可以使用獨立 t 檢定 (independent t test) 來支持你的論點。例如,M&M 巧克力綠色比藍色好吃、女人永遠不會收到罰單、條紋衣服又開始流行等。t-test 源自於啤酒統計學家為了判斷啤酒製造過程中,裝滿整部升降機的穀物品質,因無法檢查所有穀物,故設法檢視隨機從較大的穀物母體抽出的一個小型樣本的方法。假設我們想驗證,女生永遠不會收到超速罰單:


罰單數

Group 1 (male)

Group 2 (female)

平均數 (mean)

1.71

1.35

變異數 (variance)

0.71

0.25

樣本大小 (sample size)

15

15

計算過程

t=Mean of Group 1 - Mean of Group 2Variance for Group 1Sample Size of Group 1+Variance for Group 2Sample Size of Group 2=1.71-1.350.7115+0.2515=1.42

< 5% 的機率偶然發生的 t 值


兩個群組加起來的樣本數

臨界 t 值

4

4.30

20

2.10

30

2.05

60

2.00

100

1.00

1.96


  • t 檢定所回答的問題是,兩個樣本間發現的任何差異是否也存在與母體中,或是出於抽樣誤差。若 t 值 > 臨界值,我們就可以宣稱母體間有一種真正的差異存在。

  • 因為 t = 1.42 < 2.05,沒有足夠證據顯示,男性真的比女性收到更多罰單,顯示樣本的差異,不代表母體也有會差異。

  • 若你想知道任一群組平均是否大於另外一個,就會採用雙尾檢定 (two-tailed test),這通常也是我們感興趣的比較。

  • 統計學家討論真實差異的方式是「這兩個樣本很可能取自不同的母體」。你我和研究員討論真實差異的方式很可能是「共和黨員與民主黨員有差異」或「這種藥物減低感冒的機率」。


  1. 【Hack #18】Find Out Just How Wrong You Really Are (找出你實際上錯了多少):如果你需要知道你有多接近真相,就該使用標準誤差 (standard errors)。例如,樣本的平均值是母體平均值很好的猜測值,問題是如何知道是否能相信你的結果,可透過標準誤差 (standard errors) 來調整你的準確度。

平均的標準誤差 (standard error of the mean)

應用

用於「敘述統計」中,母體中某個變數的平均分數,例如,非終身聘教授的平均薪水。

公式

Standard Error of the Mean = Standard DeviationSample size

隨著 sample size 增加,樣本平均就會更加接近真正的母體平均。意即,你對某樣東西觀測得越多,你的描述就會越準確。

意涵

standard error of the mean 是樣本平均與母體平均的平均距離。

比例的標準誤差 (standard error of the proportion)

應用

用於「抽樣調查」中,母體中具有某些特徵的比例,例如,誰會投票贊成我的 Frank 叔叔成為捕狗隊長。

公式

Standard Error of the Proportion=(proportion)(1-proportion)Sample Size

隨著 sample size 增加,比例的標準誤差也會跟著縮小。隨著比例移離 .50,公式頂部的數字就會變小。

意涵

standard error of the proportion 是樣本比例與母體中真實比例的平均距離

估計的標準誤差 (standard error of the estimate)

應用

用於「迴歸分析」中的未來表現估計,例如,你訓練來做多選題測驗的寵物猴,可能的大學 GPA。用迴歸預測距離一個人會得到的實際分數有多遠。

公式

Standard Error of the Estimate = Standard Deviation1-correlation2

standard deviation 是 criterion variable (因變數) 的標準差;correlation 是你的 predicors (自變數) 和 criterion variable (因變數) 間的相關性。

意涵

在此公式中,相關係數越大,估計的標準誤差就越小。估計的標準誤差是實際分數距離每個預測分數的平均距離。

此類工具可以讓你有信心地指出真相所在範圍,因抽樣誤差是常態分佈,標準誤差 (standard error) 也可以像標準差 (standard deviation) 那樣被用來定義常態曲線底下特定比例的分數。由於抽樣誤差是常態分佈,意味著這些大小的值在其範圍中的分佈符合常態曲線,讓我們產生那些有說服力的精確的信賴區間。

建立 95% 的 CI (信賴區間)

標準誤差類型

標準差

樣本大小

樣本值

標準誤差

95%信賴區間

公式

(X: 樣本值,

n: sample size)

下限

上限

平均的標準誤差

15

30

100

2.74

94.63

105.37

X1.96n

15

60

100

1.94

96.20

103.80

比例的標準誤差

0.25

30

0.5

0.09

0.32

0.68

X1.96標準誤差

0.25

60

0.5

0.06

0.38

0.62

估計的標準誤差

15

30

100

14.81

70.97

129.03

X1.96標準誤差

15

60

100

14.65

71.29

128.71

Frank 叔叔抽問 30 個選民,高達 50% 的人說會投票給他,經過此表格可發現,由於樣本數太小,選民會投給 Frank 叔叔的比例在 32% ~ 68% 之間,樂觀的 Frank 叔叔將此解讀為他可能會斬獲 68% 的選票,開始籌備慶功宴。



  1. 【Hack #19】Sample Fairly (公正地抽樣):透過具備科學根據的方式,可以再僅查看其中一小部分樣本的情況下,準確的描述整組東西。推論統計學 (unferential statistics) 能讓我們根據較小樣本的資料推論到一個較大的母體,不過為了讓一般化的推論有效,樣本必須公正地代表母體。以下為例,最外圈代表母體,40% 方形、20% 三角形與 40% 菱形;內圈則為樣本,形狀分佈比例剛好與母體一樣。如此就稱公正 (fair) 的樣本,恰好地代表母體。只有在樣本優良的前提下,推論才會有良好的結果,建構良好的樣本是推論的關鍵所在。計算完成後,可用【Hack #18】Find Out Just How Wrong You Really Are (找出你實際上錯了多少),判斷推論統計的誤差大小

建構最佳的隨機樣本

說明

全宇集

(general universe)

  • 研究人員想要推廣泛化他發現的「抽象母體」。

  • 例如,我想要描述有關所有漫畫書收藏家的一些事情。

工作宇集

(working universe)

  • 能讓我們「實際抽樣的具體母體」。

  • 例如,我可以把 Comics Buyer’s guide 的訂閱者視為我的具體母體。

  • 工作母體和 general universe 不完全相同,但應該差不多一樣大,並且捕捉到感興趣的決大部分的抽象母體

抽樣單元

(sampling unit)

  • 定義母體的元素。

  • 例如,Comics Buyer’s guide 的單一名訂閱者,就是一個抽樣單元。

抽樣架構

(sampling frame)

  • 一個母體中抽樣單元的清單 (list),不管是真實的或是想像的。

  • 例如,向該雜誌購得的訂閱者清單。

抽樣常見名詞

說明

隨機 (random)

  • 抽樣過程中,母體內的每個成員都有相等且獨立的機會被選取

相等 (equal)

  • 抽樣架構中,每個抽樣單元被抽取的機率都跟其他單元一樣。

獨立 (independent)

  • 一個人或東西被選取的機率,與誰來抽無關。

真實世界的抽樣策略

抽樣策略

說明

便利抽樣

(convenience sampling)

  • 基於樣本可及性 (accessibility) 來挑選,有時被抽為隨意抽樣 (haphazard sampling)。

  • 例如,前往當地購物中心,詢問遇到的前 10 個人,對於你們公司的產品有何感受

系統抽樣

(systematic sampling)

  • 單元是從抽樣架構依照相等間隔 (equal interval) 挑選出來。

  • 例如,你從很長的清單中,每十個挑一個人,只要名字的順序與你試圖查清楚的東西無關,那麼這在代表母體上,可能就會跟真正的隨機選取一樣好。

分層抽樣

(stratified sampling)

  • 抽樣架構被切割為有意義的 subgroups,而且單元會從每個 subgroups 選出。

  • 如果定義 subgroup 的特性對於你所詢問的問題很重要,那麼這可能產生更具代表性的樣本,甚至比隨機抽樣好。

群集抽樣

(cluster sampling)

  • 單元所組成的群組 (group of units) 會隨機被挑選出來,而那些群組中的所有單元都作為樣本。

  • 例如,隨機挑選一家出版社,然後訪問他們的每名員工,了解如何在出版業成功。

判斷抽樣

(judment sampling)

  • 樣本根據你的專業判斷,決定是否代表母體而被挑選出來

  • 你可能會選擇只訪談你最好的客戶,因為他們對你們的產品了解最多。


  1. 【Hack #20】Sample with a Touch of Scotch (加水威士卡的抽樣):統計學家從母體選人做為樣本時,他們實際是從變數的連續分佈 (continuous distribution) 抽樣。不過有時候,把你的變數視為離散物件 (discrete objects) 而非離散分數,抽樣會更好懂一些。例如,若有一名研究人員感興趣的測量某種治療在一個連續 (continuous) 變數上的效應 (ex. 幸福感),他把幸福感 (happiness) 視為一個二分 (dichotomous) 變數,也就是幸福與不幸福,這是一種聰明的策略,因為把樣本視為代表大型的、離散的類別,而非更精確的連續值,可以讓關於抽樣的問題更容易回答與驗證。社會科學的研究統計者想要被說服他們的樣本能代表其母體,主要的考量永遠都會是他們樣本中符合特徵的比例,而非具有那些特徵的人數。最重要的是,那些關鍵研究變數每個分數的比例在樣本和母體中都相同。

  2. 【Hack #21】Choose the Honest Average (挑選誠實的平均):資料驅動的決策(例如,你是否能負擔在台北買一間房子,或你業務的核心市場包含了誰),經常仰賴「平均」(average) 作為一個大型資料集的最佳描述。問題在於,有三種完全不同的值都可以被標示為「平均」,而這些不同的平均經常會導致不同的決定,請使用正確的平均來做決策。

摘要值

(summary value)

說明

平均數

(mean)

  • 算出平均的目的都是為有效溝通那些值的集中趨勢 (central tendncy)。

  • 但是在某些情況,mean 無法代表任何實際的值。對大多數的金錢變數而言,以 means (平均數) 作為 averages (平均) 都不很合適,Bill Gates、J.K. Rowling 之類的人會把 means 拉得太高。

中位數

(median)

  • 中位數是一個分部中位於第 50 百分位數 (50th percentile) 的那個值,有一半的值低於它,而另一半的值高於它。

  • 與 mean 不同,median 對於極端值較不敏感,所以一個分部若有某個方向的傾斜,就應優先選擇 median,是誠實平均 (honest average)。

眾數

(mode)

  • 若你是一位 yoga 老師,你班上學員有一半的學生介於 25 ~ 35 歲,另一半則是 50 ~ 60 歲,median 似乎就幫不上忙了。

  • 此時你會改用眾數,在此例妳會有兩個眾數,假設第一組是 30 歲、第二組是 54 歲,這兩個直都回報會是挑選 honest average 的方式,mean 與 median 都有誤導之虞。

如何挑選 honest average

honest average

說明

適用情況

平均數

(mean)

是所有數加起來除以個數所得出的平均值。

如果分布相當對稱且只有一個眾數,就選擇平均數

中位數

(median)

將資料由小而大的順序排列,最中間的那個數即是中位數。

如果分布是傾斜的 (即有少數的離群值太大影響平均數),就要選擇中位數

眾數

(mode)

數值資料中出現次數最多的數值。

如果資料中有兩個或更多個趨勢 (trends),就該選擇眾數,並j為每個趨勢都回報一個眾數

例子:假設班上有 15 名學生,每週零用錢分別為 80, 200, 120, 100, 130, 120, 90, 100, 150, 180, 100, 50, 2000, 100, 250,平均數 = 251.33,中位數 = 120,眾數 = 100。


  1. 【Hack #22】Avoid the Axis of Evil (避開邪惡軸心):表達數量、關係和研究結果時,圖形 (graphs) 是很強大的工具,但在錯誤的人手上,它們可能被用來欺騙人心。挑選誠實的圖表:

honest graphs

說明

適用情況

長條圖

(bar chart)

X 軸代表類別或群組 (ex. 男性或女性),Y 軸則是連續的,bar 越高,變數 Y 的值就越高。

若 X 軸代表不同類別,而 Y 軸是連續的,就用 bar chart。

直方圖

(histogram)

X 軸代表連續的值 (ex. 月份),看起來像 bar chart,但是 bar 間沒有空格。

若 X 軸可被視為類別,但之間也具備某種有意義的順序,且 Y 軸是連續的,就用 histogram。

折線圖

(line chart)

X 軸與 Y 軸都是連續變數 (ex. 時間與價值),在任何點,線條所在位置越高,Y 軸所代表的數量就越大。

若 X 軸與 Y 軸都是連續變數 ,就用 line chart。

圖形例子

長條圖 (bar chart)

直方圖 (histogram)

折線圖 (line chart)


No comments: