2019/06/15

[統計] 貝氏定理 - Lizard Flu : P(有得病且陰性)

假設有無得病,檢測為陽性的機率分別如下:


假設得病 base rate 為 9%,1000 個人中,有得病與沒得病的人數,且檢測為陰性、陽性的人數分別如下:



計算公式如下:







2019/06/14

[統計] 貝氏定理 - Lizard Flu : P(有得病且為陽性)

假設有無得病、檢測為陽性的機率如下:


假設得病 base rate 是 1%,所以 1000 人中,有得病與沒得病人數,且檢測為陰性與陽性的人數分別如下:


計算公式如下


2019/06/13

[Google Sheet] OpenSolver 使用範例

假設我有個生產決策必須決定,我要生產幾個 duck or fish 娃娃,放到娃娃機,並能讓獲利最大化。duck 與 fish 的每單位耗用橡膠量分別為 100 與 125,每單位利潤分別為 $5 與 $4



已知限制條件如下,依據歷史資料, duck 與 fish 每個月最大銷售量分別為 400 與 300個,每個月可用來生產的橡膠量只有 50000 g



打開 OpenSolver,設定目標利潤最大化


設定 variable cells


設定限制條件
(1) 生產的橡膠量必須 <= 每月可用橡膠量
(2) duck 生產數量必須 <= 每月最大銷售量
(3) fish  生產數量必須 <= 每月最大銷售量


按下 Solve Model 即可得到最佳解:在已知的條件限制下,duck 與 fish 分別生產 400 與 80 個,可以得到利潤最大化






2019/06/12

[Excel] [規劃求解] [Solver] 麵包店的麵包與蛋糕的生產決策

Scenario


How-To
已知麵包與蛋糕的單位利潤分別為 $7 與 $9,麵粉用量分別為 22g 與 27g


已知限制有,依據過去銷售經驗,麵包與蛋糕每日最多販售個數分別為 200 與 100 個,由於資源有限,每日只有 6000 g 可以使用


規劃求解的目標 => 利潤最大化


決策變數 => 在有限的資源條件下,該生產幾個麵包與蛋糕,才能達成利潤最大化的目標


限制條件 1 => 麵粉用量不可超過 6000 g


限制條件2 => 麵包每日生產量不可超過 200


限制條件3 => 麵包每日生產量不可超過 100


進行求解


取得結果




Reference
[1] http://blog.pulipuli.info/2017/09/optimization-problem-solver.html

2019/06/11

[Tools] 如何建立文字雲 (word cloud)

可以使用此網站,且支援繁體中文:https://www.wordclouds.com/

假設我有多筆消費者所在地的消費資料,將資料內容貼到 word list 中,並按下 [apply] 按鈕



如此即可輕鬆產生 word cloud


亦可選擇你想要儲存的圖片格式



Reference
[1] https://zi.media/@ez3c/post/LPTsAP

2019/06/10

[Google Spreadsheet] How to create pivot table?

Raw data




Data => Create pivot table



Configuration:
* Set Fruit as row
* Create multiple values, including summary, average and median.



Check Result




2019/06/09

[閱讀筆記] 如何衡量萬事萬物 (2/5)


  1. 釐清連鎖 (clarification chain) 可以引導我們從認為某件事物是無形的,漸漸認為該事物是有形的,其要點有三:
                    1.1.          若該問題是重要的,它一定可以觀察或偵測得到
                    1.2.          如果它是可偵測的到,我們就能偵測到某個數量或可能的數量範圍
                    1.3.          如果我們能偵測到可能的數量範圍,它就是可衡量的  

  1. 衡量的目的,常常是定義衡量該是什麼的關鍵。衡量的目的提供我們線索,了解衡量的真正意義,以及如何做衡量。例如:衡量降低犯罪的價值,其真正的目的是要為一套犯罪者生物特徵辨識系統提出商業上的理由。
  2. 找出衡量的客體 (object),幾乎是所有科學調查的開端。企業經理人必須了解,有些事物看起來無形,是因為他們尚未對該事物下定義。只要釐清你問題的定義,則你就已經做出一半的衡量了。  
  3. 常見的無法衡量的例子
常見的無法衡量的例子
說明
以非常小的隨機樣本數做衡量
從小樣本的潛在客戶、員工等,你可以得知一些事情,尤其眼前狀況存在很大不確定性的時候
在無法完全看遍整個母體的狀況下做衡量
要衡量海洋中某種魚類的數量、雨林中植物的物種數量、試圖入侵公司資訊系統的非法攻擊次數等,都有聰明且簡單的做法可以衡量
在涉及許多其他變數,甚至是未知變數的情況下做衡量
測定新品質計畫是否是產品銷售量增加的原因,相對於總體經濟好轉、競爭者犯了錯誤、新的訂價政策等因素
衡量罕見事件的風險
發生另一次 911 攻擊的機會、紐奧良再一次潰堤的機會、再一次發生重大金融危機的機會等,全都可以透過觀察和推論,得到有價值的訊息
衡量主觀偏好及價值
我們可以衡量藝術、悠閒時間或降低死亡風險的價值,經由評估人員真正支付在這些事務上的金額來做衡量

  1. 五的規則 (Rule of Five):任何從母體中隨機抽取的五個樣本,母體的中位數有 93.75% 的機會,會落在這五個樣本中最大和最小數值之間。假設你要考量公司是否要增加遠距辦公的機會,因此要考量每名員工平均花在通勤的時間,所謂五的規則就是你隨機選五名員工,假設你得到的數值是 30, 60, 45, 80, 60 分鐘,最高與最低分別為 30 80,此是全體員工的母體中位數有 93.75% 的機會,會落在這兩個數字之間。雖然樣本數很小,範圍可能很大,但是若能比你先前的範圍大幅縮小,那它作為一項衡量就很有價值。                         
  2. 平均數與中位數的差別
                    6.1.          平均數:全部加總除以個數,但是分佈差異性過大時,平均沒有意義,如:班上50人,一半人是0分、一半人是100分,全班平均50分,該數字對於每一個人都沒有意義。
                    6.2.          中位數:是一種集中趨勢或位置量數,其意義是在所有觀測資料居於中間位置的代表量。                           

  1. 四項有用的衡量假設
                    7.1.          你的問題不像你想的那麼獨特 (以前已經有人做過,不必再重做一次)
                    7.2.          你擁有的資料多過你所想像的 (只是需要一些聰明才智及具獨創性的觀察)
                    7.3.          你需要的資料少於你所想像的 (如果你知道怎麼分析的話)
                    7.4.          適當數量的新資料比你想像中容易取得,舉例來說,克里夫蘭管絃樂團衡量表演是否有進步的方式是計算觀眾起立鼓掌的次數 (而不是做客戶調查,綜合幾項參數合併成為滿意指數)
  1. 常見的錯誤觀念是,當不確定性愈大,就需要愈多的資料,才能大幅降低不確定性。事實剛好相反,當你幾乎毫無所知時,不需要太多額外資料,你就能獲得一些先前不知道的事。對於那些被標籤為「無形」的事物,永遠不缺乏更先進、更複雜的衡量方法。反而是,那些被認為是無形的事物,因為太不確定了,所以即使是使用最基本的衡量方法,都可能會降低一些不確定性。
  2. 真正使衡量具有高度價值的是,很大的不確定性以及決策錯誤的代價龐大。如果你把大把鈔票押注在一個變數的結果上,而這個變數的不確定性很高,那麼即使只是降低一點點的不確定性,都有可觀的貨幣價值。
  3. 經理人最大的問題是,他們只會衡量那些看起來最容易衡量的 (亦即那些它們目前已知如何衡量的),而不是衡量那些最重要的
  4. 通用的衡量方法,共分成五個步驟  
                 11.1.          定義決策問題及相關的不確定性 (詳見第 4 )
                                11.1.1.          如果人們問「我們如何衡量 X ?」他就可能把問題本末倒置了。第一個問題應該是「我們的困境是什麼 ?然後我們可以定義與困境相關的變數,並釐清我們所說的「經濟機會」這類模糊不清的概念,究竟是什麼意思。
                 11.2.          確定你目前知道什麼 (詳見第 5 章與第 6 )
                                11.2.1.          對於決策中未知的數量,必須將不確定性予以量化。定義相關的決策及有多少不確定性,可以幫我們確認相關的風險
                 11.3.          計算額外資訊的價值 (詳見第 7 )
                                11.3.1.          資訊是有價值的,因為它降低決策的風險。若所有變數都不具資訊價值,不能證明任何衡量方法的正當性,直接跳到步驟 5
                 11.4.          將相關的衡量工具應用在高價值的衡量上  (詳見第 9 ~ 13 )
                                11.4.1.          利用像是隨機抽樣、控制對照實驗等,在有限資料中發掘更多資訊的作法,來幫助衡量。然後重複步驟 3
                 11.5.          做出決策並且付諸行動 (詳見第 11 12 章與第 14 )
                                11.5.1.          我們會討論如何量化決策者的風險趨避程度,以及其他偏好與態度,將全部步驟整合為實務上的計劃步驟。
  1. 衡量前,我們必須先回答以下五個問題
                 12.1.          這項衡量是要支援什麼樣的決策?
                 12.2.          要衡量的事物,若用可觀察到的結果來定義會是什麼?
                 12.3.          這個事物如何影響與問題有關的決策?
                 12.4.          關於這個衡量,你目前的不確定程度為何?
                 12.5.          額外資訊的價值為何?  

  1. 如何此項衡量是否重要 :    
  2. 名詞定義
                 14.1.          不確定性:沒有完全確定,也就是有一個以上的可能性。真的後果、狀態、結果、價值是未知的
                 14.2.          不確定性的衡量:為一組可能性指派一組機率,例如:這個市場有 60% 的機會在五年內會成長超過一倍,30% 的機會以較慢的速度成長,10% 的機會在同樣期間內市場會萎縮
                 14.3.          風險:不確定的狀態,有些可能涉及損失、災難或其他不想要的後果
                 14.4.          風險的衡量:一組可能性,其中每個都有量化的機率和量化的損失。例如:我們相信有 40% 的機會提案的油井是乾枯的,而其損失金額是 1200 美元的探勘成本。
  1. 你要學習對不確定的事件賦予機率,或是對不確定性的數量給予範圍。例如我有 80% 的信心能夠完成此次交易;在 90% 的信賴區間 (CI, Confidence Interval) 內,從潛在客戶變成公司客戶約有 3 ~ 7 位。研究人員發現,評估不確定性是一項一般性的技巧,透過教導能獲得顯著改善。
  2. 區間估計值 (Interval Estimate):由於點估計量的值不會恰好等於母體參數,因此區間估計值通常是由點估計量的值加或減某個值求得,我們稱這個加減值是邊際誤差(margin of error)區間估計值的一般形式是,點估計值±邊際誤差。區間估計值可以讓我們瞭解,由樣本得到的點估計值與母體參數值的接近程度
  3. 面對問題時,我們很容易迷失在未知的部分,也很容易忘記我們已知的部分。即使當問題一開始看似無法估計,總是有辦法得到合理的範圍。如果我們為一個範圍是負的 到正的 ,那就沒有任何東西需要我們衡量了。  
  4. 降低風險是一項衡量價值的基礎,因此也是選擇要衡量什麼及如何衡量的基礎。請記住,你會覺得一項衡量是重要的,乃是因為它必定能提供資訊讓你做決策,而那些決策具有不確定性,並且決策結果如果錯誤,會帶來負面的後果。
  5. 蒙地卡羅模擬法 (Monte Carlo Simulation) 是一種數值方法,利用亂數取樣 (Random Sampling) 模擬來解決數學問題。在數學上,所謂產生亂數,就是從一開始給定的數集合中選出的數,若從集合中不按順序隨機選取其中數,稱為亂數,若是被選到的機率相同時,稱為均勻亂數。例如擲骰子, 1 點至 6 點骰子出現機率均等。 舉凡在所有目前具有隨機效應的過程,均可能以蒙地卡羅方法大量模擬單一事件,藉統計上平均值獲得某設定條件下實際最可能測量值。
  6. 蒙地卡羅模擬法,是基於大數法則的實證方法,當實驗的次數越多,其平均值也就會越趨近於理論值。其法則亦可以估算投資組合的各種風險因子,特別是一些難以估算的非線性投資組合。另外也可處理具時間變異的變異數、不對稱等非常態分配和極端狀況等特殊情形,甚至也可用來計算信用風險。雖然蒙地卡羅模擬法具有以上優點,但因需要繁雜的電腦技術和大量重複的抽樣,所須計算成本高且耗時的缺點。最後,若是僅處理非線性及非常態分配的投資組合,則可以選擇此模擬法,以加速其運算的速度和準確性。