2022/07/03

[閱讀筆記] The Math of Life and Death - ㊁ 敏感性、特異性、第二意見:數學對醫學有多重要 (Sensitivity, Specificity, and Second Opinions: How Math Makes Medicine Manageable)

 

  1. DNA 檢測公司 23AndMe 與 Ancestry.com 所使用的基因定序技術只有 0.1% 的錯誤率,乍看之下非常可靠。但我不能忘記,如果要檢驗的遺傳變異將近 1000 萬種,0.1% 的錯誤率代表預計會有約 1000 個錯誤。因此,兩家公司獨立做出的不一致結果,確實是個令人擔心、但不令人意外的結果。或許我們該擔心的是沒有獲得後續的醫療支援配套,只獲得檢測結果而已。

  2. 由於各家檢測公司採用不同的數學方法,所以對於那些個人基因組學健康報告所提出的風險數據,應該都要抱持懷疑態度。

  3. Longitudinal Study (貫時性研究) 意指在不同的時間點上,針對相同的主題、對象,所做的比較性研究。(https://reurl.cc/zWjeQk)

貫時性研究種類

說明

① 趨勢研究 

(Trend Study)

  • 針對相同的主題、不同的樣本,在兩個以上的時間點蒐集資料以進行比較。

  • 例如:政府每年會紀錄經濟成長率與其趨勢的統計。

② 世代研究 

(Cohort Study)

  • 又可稱為「同期群研究」、「年輪研究」。針對相同主題、相同的世代,在兩個以上的時間點蒐集資料以進行比較。(世代:指的是有相同經歷的一群人,如同一時期出生、入學、就職的人。)

  • 例如:針對全國「99學年度」(同一世代) 社會工作系畢業生,每三年進行一次抽樣調查,以了解其生涯規劃發展。

③ 固定連續樣本研究

(Panel Study)

  • 又可稱為「同組研究」、「小樣本訪問研究」。針對相同的主題、相同的樣本,在兩個以上的時間點蒐集資料以進行比對。

  • 例如:針對幾位高中時期跳級升大學就讀的資優生,進行長年的深度訪談,以了解其跳級學習之後的長期生涯發展過程。


  1. 冷門賠率 (odds against) 與熱門賠率 (odds on)

冷門賠率 (odds against) 

  • 代表預期輸掉的場次會 > 獲勝的場次

  • 在賽馬比賽中,除非有特別說明,不然通常都是冷門賠率;

  • 冷門賠率 5 : 1 代表,比賽六次,預計此選手會輸 5 次、贏 1 次;

  • 賠率一般是把「不發生某事件」的可能性比上「發生某件事」的可能性。以上述為例,就是 5/6 比上 1/5,或簡單寫 5 : 1。

熱門賠率 (odds on)

  • 代表預期獲勝的場次會 > 輸掉的場次

  • 在醫療場景,通常用熱門賠率 (i.e. 「發生」比上「不發生」);

  • 熱門賠率 2 : 1 代表,比賽 3 次,預計此選手會贏 2 次、輸 1 次;

  • 與冷門賠率相反,是將「發生某件事」的可能性比上「不發生某事件」的可能性。。以上述為例,獲勝機率是 2/3、失敗機率是 1/3,可簡單寫為 2 : 1。


  1. 身體質量指數 (BMI, Body Mass Index) 又稱為凱特萊指數 (Quetelet index),是由一個人的體重和身高計算出的一個數值。BMI 的定義是體重除以身高的平方,以公斤/平方公尺為單位表示,由體重 (公斤) 和身高 (公尺) 得出。但 BMI 最大的問題,就是把肌肉與脂肪混為一談,瑞典健康機構 Amra 的負責人 Tommy Johansson認為在衡量內臟脂肪方面,BMI 作用很小。(https://reurl.cc/q1j5bp)

不適用 BMI 的例子

  • 隨著人們年齡增長,肌肉比例會減少。儘管他們仍在"健康體重"範圍內,但卻有可能有大量內臟脂肪,特別是一些吸煙者。

  • 肌肉比脂肪密度大,因此比脂肪重。他們的 BMI 指數可能會超標。但實際上他們可能非常健康。當然,他們只佔人口的極少數 (約為1%)。

  • BMI對孕婦也不適用。一些少數族裔人群儘管BMI指數較低,但仍有高風險。

醫生的建議

  • 無論胖瘦,BMI 都不是正確的指標,應改為「體脂率」,畢竟體脂率與心臟代謝的指標密切相關

  • 無論你BMI指數是多少都應該適度減肥,保持腰部苗條。男性最好不要超過94厘米(37英寸),女性不要超過80厘米(31.5英寸)。

  • 最好把BMI與其它讀數結合起來看,例如血壓、膽固醇以及家族史等來判斷一個人得二型糖尿病或是心臟病的風險。

  • 當人們減肥時,首先減掉的是內臟脂肪。而且,只要體重減輕5%就可以大大減少內臟脂肪


  1. 阿基米德想確認王冠是否以純金打造,得想出比對王冠的質和量的辦法。阿基米德的難題是,他既不能融化王冠,又得精確算出它的體積。🛀 直到他踏進公共浴池時,注意到水位升高的現象,才靈光一閃:要測量不規則的物體時,觀察他排出多少水就好。據說阿基米德極其興奮,連衣服都沒有穿,就急著跑回家,並一邊歡呼:「Eureka !」這希臘文的意思是「我知道了」,後來變成科學新發現的同義詞。《The Most Human Human

  2. 阿基米德浮體原理 (Archimedes's principle):⛵ 物體在液體中所獲得的浮力,等於物體所排出液體的所受的重力。此一成就影響後世至深,遠勝揭露金匠的舞弊。

  1. 水中秤重法 (hydrostatics weighing 或 underwater weighing) 是運用阿基米德浮體原理,正確計算人類體脂 (https://reurl.cc/35lQDl)

方法假設

假設人體是由脂肪量 (fat mass) 和無脂質量 (fat-free mass) 構成,脂肪多的人身體密度 (density) 較低,排水量較少;脂肪較少的人身體密度較高,排水量較多

原理

利用「當身體浸入水中時,因為浮力的作用,排除的水量等於身體減輕的重量」來測量身體密度,再利用已知公示計算出身體脂肪比例。因人體中骨頭和肌肉的密度比水重,脂肪的密度比水輕,所以兩個體重相同的人,脂肪比例較高者的身體密度會較低,排水量較少


水底秤量法雖然較為準確,但需要特別的裝置,測量時亦需要較長的時間去完成。此外,由於水底秤量法要求受試者要完全呼氣後再閉氣沉入水中,未必適合不諳水性的人士,對兒童、長者及殘障人士亦未必適合。

計算公式

人體密度公式

男性肺餘容積=0.017 (年齡)+0.06858 (身高以英吋表示)-3.477;女性肺餘容積=0.009 (年齡)+0.08128 (身高以英吋表示)-3.9



  1. 上帝公式 (God Equation):決定英國國家健保局會支付那些新藥的費用,實際上也是決定哪些病人可以活下來,哪些病人將死去 (https://reurl.cc/Ok8a8D)

QALYs (Quality-Adjusted Life Years)

  • 是一種調整的期望壽命,用於評價和比較健康干預。 由於健康損害、傷殘和(或)出生缺陷等原因造成的慢性疾病可以通過健康調查,醫院出院紀錄等資料進行評價。在實際應用時,反映剩餘傷殘嚴重性的權重可以通過患者或職業醫師的判斷來確定。

  • 如果健康的生活了一年則記為1; 如果死亡則記為0; 如果是傷殘則根據適當的標準記為0~1之間的數字。

ICER (Incremental Cost Effectiveness Ratio) 增加成本效益比

  • 增加的 QALY 除以增加的成本

  • 若成本過高,勢必會放棄此療法,放棄此為病人,避免排擠其他社福項目;若成本在可接受範圍,就會採納此新療法,此病人就可以續命


  1. 假警報通常是指,當警報被觸發,但並非出自原本想偵測的原因。這並不罕見,我們甚至因為太常聽到警報聲,產生「警報疲乏」而懶得因應。若懶得確認警報起因,這樣為何要安裝警報器呢?

  1. 加護病房 (ICU, Intensive Care Unit) 有高達 85% 的警報是假警報,這不但讓醫護人員疲於奔命,有時甚至因為警報疲乏而懶得因應,最後導致憾事。透過中位數的過濾,降低 60% 的假警報,既能不影響病患安危,又能避免讓醫護疲於奔命。

Before

After


  1. 算數平均數 (mean) 與中位數 (median) 的應用

算數平均數 (mean)

中位數 (median)

無法消除極端值,只是讓極端值變得較溫和

可以完全濾掉極端值

📸 數位相片像素的亮度是以數值表示,其會與相鄰像素的數值與以平均,替換掉原本的像素數值,如此就能抹除雜訊,獲得較平滑的照片。

💵 家庭可支配所得,常會受到超富裕人士的影響,此時中位數會是比算術平均數更適當的選擇。


  1. 如何挑選 honest average 《Statistics Hacks

誠實平均數

說明

適用情況

平均數

(mean)

是所有數加起來除以個數所得出的平均值。

如果分布相當對稱且只有一個眾數,就選擇平均數

中位數

(median)

將資料由小而大的順序排列,最中間的那個數即是中位數。

如果分布是傾斜的 (即有少數的離群值太大影響平均數),就要選擇中位數

眾數

(mode)

數值資料中出現次數最多的數值。

如果資料中有兩個或更多個趨勢 (trends),就該選擇眾數,並為每個趨勢都回報一個眾數

Example


  1. 二元性 (binary) 檢測可以提供診斷用的篩選資訊,但病人經常會理解錯誤,有時甚至醫生也會。了解稱作「敏感度 (sensitivity)」和「特異性 (specificity)」的機率特徵能提供更為準確且 (有的時候) 令人安心的畫面。《HOW NOT TO BE WRONG

二元性 (binary) 檢測



病人實際該症狀 (A)

病人實際該症狀 (B)

檢驗結果顯示該症狀

true positive

真陽性

敏感度 (sensitivity)

false positive

偽陽性

檢驗結果顯示該症狀

false negative

偽陰性

true negative

真陰性

特異性 (specificity)


敏感度 (sensitivity)

  • 若一個人真的有該疾病,檢驗結果為陽性的機率有多高

  • 即 A 欄中,有多少比率會得到陽性的檢驗結果

特異性 (specificity)

  • 若一個人沒有該疾病,檢驗結果為陰性的機率有多高

  • 即 B 欄中,有多少比率會得到陰性的檢驗結果

以乳癌檢測為例,篩檢為陽性,真的是陽性的正確率只有 9.17%

  • 假設前提

    • 假設女性乳癌盛行率 1%

    • 如果女性罹患乳癌,篩檢呈現陽性機率為 90%

    • 如果女性「未」罹患乳癌,篩檢呈現陽性為 9%

  • 將上述機率轉換為樹狀圖

  • 真陽性機率 = 90 / (90+891) = 0.0917。

  • 偽陽性機率 = 891 / (90+891) = 0.91。以此假陽性機率,只要你做七次乳癌檢測,就有高達 50.98% 的機率 (0.91 ^ 7) 會收到一次偽陽性通知。

  • 現行英國政府要求年滿 50 歲的女性,每三年要做一次乳房 X 光篩檢,女性平均壽命 82 歲,英國女性一生至少會收到一次偽陰性通知。


  1. 英國國家篩檢計畫 (National Screening Programme) 前負責人 Muri Gary 曾指出:「所有篩檢計畫都會造成傷害,只是有些也能帶來好處,而在帶來好處的計畫中,有些能以合理代價,帶來利大於弊的結果。」

在醫學上,偽陽性是可被接受的,盡早發現、盡早治療


  1. 確定性假象 (illusion of certainty):在醫療篩檢中,偽陽性之所以會造成問題,部分原因在於我們對醫療檢測結果的深信不疑。我們想盡辦法,急著想要得到某個確定答案,忘了應該對相關結果抱持懷疑態度

  2. 對於絕大多數健康的人來說,檢測「準確」代表這些人真的沒有病,是「真陰性」。由於未染病的人會有兩種檢測結果:真陰性與偽陽性,真陰性的比例越高,偽陽性的比例就越低,檢測就越準確

  1. 敏感性 (sensitivity) 與特異性 (specificity)

檢驗特性

說明

敏感性

 (sensitivity) 

高敏感性的檢驗,偽陰性率低,因此結果陰性時越能排除得病。

特異性

 (specificity)

高特異性的檢驗,偽陽性率低,因此結果陽性時越能確認得病。

  • 以流感快篩檢驗為例,其特異性可達 90-95%,因此快篩結果陽性時,幾乎能確認受到流感病毒的感染;但快篩檢驗的敏感性卻只有 50-70%,陰性結果並不能用來作為排除流感病毒感染,仍是必須依患者的臨床症狀來加以判斷。

  • 最佳的檢驗方法當然是有病的人檢驗結果都是陽性,無病的人檢驗結果都是陰性,但實際上,大多數的檢驗方法是無法同時兼顧兩者,只能依據臨床上的需求來選擇檢驗方法

敏感性 (sensitivity)

特異性 (specificity)


  1. 【缺乏思考的計算,當心膚淺的比較】人有一種自然傾向,僅關注計算結果是否準確,而不深究這個計算是否正確與合理。隨著人口成長,許多人類活動也會跟著增長,包含看電視時間、吃橘子的人數、死亡人數等。資料間毫不相關,但它們之間存在統計相關性,因為它們都會隨著人口增加而增長。看電視不會導致我們吃橘子,吃橘子不會導致死亡。在統計學中,相關性 ≠ 因果關係。不管兩者相關性多高,在做出判斷前,都需要合理的解釋。(Ref: https://reurl.cc/4y7kYK )

準確度(accuracy)

精確度(precision)

重點在於「差距」,測量值的平均值跟實際值的差距,常用術語:誤差

重點在於「離散程度」,測量值的離散程度,常用術語:標準差、變異數


  1. 提高某項檢測精確度的方式,例如武漢肺炎的檢測,第一輪用快篩,盡可能抓出潛在陽性個案;第二輪針對陽性患者做 PCR 檢測,藉此剃除偽陽性個案。

提高某項檢測精確度的方式

以武漢肺炎為例


  1. 檢測有可能完全準確嗎?意即敏感性 (sensitivity) 與特異性 (specificity) 都是 100%,既能找出所有患病對象,而且完全不會找錯人。實務上,偽陽性與偽陰性呈現負相關:偽陽性越少,偽陰性就越多,反之亦然有效的檢測會找出一個門檻值,在完全敏感性與完全特異性之間找到平衡,盡可能與兩者接近

  2. 檢測必須做敏感性與特性的的折衷原因,是因為我們常常檢測的對象並非現象本身,而是一些替代對象,稱之為替代標記 (surrogate marker)。以居家懷孕檢測為例,檢測試紙並未進入子宮尋找是否有著床的胚胎,它是檢測 HCG 是否增加,HCG 就是扮演替代標記的角色。因為若有其他標記與替代標記太過類似,就可能觸發陽性結果

  1. 居家懷孕檢測出現陽性時,因我們檢查的是替代標記的原因,常會誤判懷孕,忽略惡性腫瘤刺激 HCG 的可能性

  1. 唐氏症檢查

  1. 不論我們是否喜歡,都無法避免偽陽性與偽陰性。雖然靠著數學與科技,可以用像是過濾之類的工具在第一線就處理掉其中一些問題,但仍有些問題須靠我們自己解決。記住,篩檢並非最終診斷,需耐心等待第二輪更準確的追蹤檢查結果

  2. 有些檢測或許沒有更進階的檢測工具,在此種狀況下,就算只是把同樣的測試再做一次,也能顯著提升精確度。

  1. 進行兩輪檢測以提升HIV 檢測精確度 (precision) 

【第一輪】Base rate

  • 英國 HIV 盛行率 0.16%

  • HIV 檢測特異性 (specificity) 為 99.7%

【第一輪】真陽性精確度 (precision) 計算

  • 真陽性精確度 (precision) = 1595 / (1595 + 2995) = 0.35

【第二輪】Base rate 更新

  • 依據第一輪的計算,英國 HIV 盛行率 35%

  • HIV 檢測特異性 (specificity) 為 99.7%

  • 第一輪的陽性患者數共 1595 + 2995 = 4590 位

【第二輪】真陽性精確度 (precision) 計算

  • 真陽性精確度 (precision) = 1602 / (1602 + 9) = 0.99


  1. 永遠不要害怕去詢問第二意見,事情清楚擺在眼前:就算是醫生這種公認的專家,總散發一種信心的假象,也不見得每次都能確實的掌握數字。

  2. 當你因為單一檢測結果感到焦慮時,請先去研究那項檢測的敏感性與特異性,計算結果錯誤的可能性。去質疑那些確定性的假象,把詮釋權重新抓回自己手中

No comments:

Post a Comment