想在國際期刊發表論文,必須通過標準的統計顯著性門檻,也就是 p 值 0.05。換句話說,20 次要成功 1 次。回憶 p 值 的定義:某項實驗若虛無假設為真,則實驗有 1/20 的機會,能產生具有統計意義的結果。倘若虛無假設永遠為真,也就是說內臟占卜學純粹是騙人的,那麼 20 次實驗裡也只有 1 次能發表。
以下的方格圓圈,是說明相關基因數量的好辦法。格子裡圓圈的大小代表該區域裡基因的數目,左上與左下代表未通過顯著性檢定的基因;右上與右下有通過顯著性檢定,右上是真陽性 (有通過檢定且真有作用),右下是偽陽性 (有通過檢定但無作用)。顯著性檢定並非問題所在,它只是在做份內的事。與思覺失調症無關的基因很少會通過檢定,而我們感到有興趣的基因則會一半會通過檢定,偽陽性雖然比真陰性少,但遠比真陽性多。
偽陽性問題:假設大麻檢測率有 95% 的檢驗準確率、估計 5% 的人有吸食大麻,被檢驗出陽性且真的有吸食大麻的人,機率有多高
醫療檢驗提供診斷用的篩選資訊,但病人經常會理解錯誤,有時甚至醫生也會。了解稱作「敏感度 (sensitivity)」和「特異性 (specificity)」的機率特徵能提供更為準確且 (有的時候) 令人安心的畫面。(Ref: Statistics Hacks: Tips & Tools for Measuring the World and Beating the Odds)
在醫學上,偽陽性是可被接受的,盡早發現、盡早治療
如何判斷正確理論或胡謅?有兩種良方:常識與新數據。
2012 年,美國安進(Amgen) 製藥公司進行一項研究,他們挑選 53 個極出名的癌症生理研究,嘗試複製研究結果,結果只有 6 個可以成功複製結果。。實驗重現的危機僅反映出科學研究的困難,我們的想法經常不正確,即便這些想法已通過初步的統計檢定的研判。
發表偏差 (publication bias) 或稱為抽屜問題 (file drawer problem),是指使用統計顯著性作為發表與否的門檻,可能會大幅扭曲某些假設獲得的證據,例如,第六章提及股票經紀人的套路。投資人跟科學家一樣,只看到因巧合而成功的那次就信以為真,但是卻忽視為數眾多的失敗案例 (ex. 沒有通過檢定的案例就收進抽屜)。
巧克力、葡萄酒、咖啡、陽光等,都是曾經是有害的,現在卻變成有益的。壞的變好的,好的變壞的,這是因為最初的研究存在缺陷,這通常是當初研究忽略重要的干擾因素,或者為了尋找值得發表的結論,進而探究資料。操弄 p 值的人,很少有不良企圖,他們通常是真心相信自己的假設。
倖存者偏差 (survivorship bias),是一種認知偏差,其邏輯謬誤表現為過分關注於目前人或物「倖存了某些經歷」然而往往忽略了不在視界內或無法倖存這些事件的人或物。也就是說,我們現在所選擇的研究樣本並回顧過去時,只能看到倖存者。
為什麼研究人員為了要發表愚蠢理論:① 研究人員需要統計顯著性;② 研究人員真誠相信自己是對的,因此認為忽略反對證據是沒關係的。對於任何理論,只要考察大量資料,並丟棄不支持這種理論的資料,你一定可以收集到支持這個理論的證據。
以 p = 0.05 做為生死分界線,犯了基本的類別謬誤,錯認連續變數為二元變數。新藥有效的證據有多強,基因預測 IQ 的高低、排卵期婦女喜歡共和黨的程度,都是涉及連續變數的問題。而二元變數只有兩種值,真或假、是或非。我們應允許科學家發表不具統計顯著的證據。p 值很弱代表證據不足,但總比沒有好;p 值很強代表證據充足,但無法宣稱效果一定存在。
波蘭數學家和統計學家 Jerzy Neyman 認為:統計的目的不在於告訴我們該相信什麼,而是告訴我們該做什麼。統計的目的在於做決策,而非回答問題。顯著性檢定只是一個規則,告訴下決策的人要不要批准新藥物、是否採納新的經濟方案、要不要把網站做得更漂亮。
發現具統計顯著性的實驗結果,不是這項科學歷程的終點,而是另一段旅程的起點。如果發現一項重要的新成果,其他實驗室的科學家會一再測試這個現象及它的變化,想辦法判定這項成果是否只是偶然事件,這就是科學家提到的「再現性」(reproduce)。
No comments:
Post a Comment