運動禁藥的科學與爭議

學術文化 09/01/2008



競爭激烈的奧運會中,禁藥檢測已成為一個引起爭議的問題,今年的北京奧運也有包括我們棒球選手張泰山在內的許多案例。但是根據專家的意見,目前的禁藥檢測程序,建基於一些有瑕疵的統計和推論方式之上,需要以更多樣本來建立更可靠無誤的標準。

國際體育仲裁法庭最近確認了自行車手蘭迪斯(Floyd Landis)使用禁藥的指控,剝奪其二○○六環法自行車賽冠軍頭銜,並處以兩年禁賽。該法庭認同美國仲裁協會(AAA)三名看法分歧委員中的多數意見,這代表對一項顯示出蘭迪斯服用睪固酮檢驗結果的實質背書。雖然蘭迪斯堅持其清白,卻已求助無門。

在這次奧運還沒有開始,大量的時間、金錢及媒體篇幅就已經投注在運動禁藥議題之上。有幾位禁藥專家承認,現有檢測的靈敏度不足,使許多作弊者得以鑽過漏洞。一些運動員則面臨制裁。由於陽性的瘦肉精檢測結果,美國游泳選手哈迪(Jessica Hardy)不但被拒於奧運代表隊門外,還面臨兩年禁賽;但她誓言自己是清白的。中國隊也有好幾位選手因使用禁藥而禁賽,其中有些人是終身禁賽。的確,許多世界級的運動員赫然發現自己一生的成就、夢想、誠信及名聲通通繫於尿液或血役篩檢的結果;但是,一位選手被檢測出陽性反應,是否就代表其犯了使用禁藥的天條?由於我深信禁藥實驗室的檢測操作有一些內在的瑕疵,我的答案很可能是:並非如此。

就我看來,嚴格檢視蘭迪斯案中的定量證據,可以發現其根本不具意義,無法說明蘭迪斯有無違規。它反而顯示了在這種案例中,用以定罪的證據及推理過程,並未將問題正確呈現。目前全球禁藥檢測實驗室的這種問題亟需矯正。作弊者得以脫身,未用禁藥者卻被誣指;最終受害者是體育運動。

檢控者的謬誤

一個重要的問題,是許多案例係採用統計歸因的方法,而這也就是許多人所知的「檢控者的謬誤」。在最簡單的情況下,這方法認定一個人有罪,只是基於他們所觀察到了,「極難出現在一個清白之人身上」的現象。試設想一項血液檢驗出現了某嫌疑犯和行兇者完全相符的結果,而這種檢驗平均每一千個人中,會有一人產生如此吻合的資料。一名思緒簡單的檢察官可能試圖說服法庭陪審團,有罪可能性是九百九十九比一;也就是說,該人有罪的機率是零點九九九。

正確判斷此或然率的方法源於貝氏定理(Bayes rule),等於九百九十九乘以P除以(1-P),P是該人有罪的「先驗機率」。先驗機率可能很難評估,但可能從很小到很大,要看指涉此嫌疑犯的確切證據而定。該檢查官說有罪的可能性是九百九十九比一,隱含先驗機率為零點五(此時P和1-P相除時抵消)的假設。這麼高的P值確有可能,但必須要提出強力佐證支持。假設除血液檢驗外無任何一項證據對嫌疑犯不利,他的涉嫌只因為他來自案發城市。如果此城市的人口是一百萬,則P值為百萬分之一,則該疑犯確實有罪的可能性是「一千零一比一的否定」,也就是有罪機率小於千分之一。

這個檢控者的謬誤也在禁藥案中出現。例如,蘭迪斯的陽性檢驗結果似乎算是極為罕見的事件,但到底多罕見?在禁藥案中,可能性取決於「陽性反應表示受測者使用禁藥」(檢驗的「靈敏度」)與「陽性反應表示受測者未用禁藥」(也就是一減去檢驗的「特異度」)的相對可能性。我的看法是,除非對靈敏度與特異度的關鍵量測數據,有相當準確的估算,否則就不能論斷是否使用了禁藥。

要獲得高品質估算的必要研究並不好作。這些研究需要已知的樣本,樣本中有使用禁藥的陽性與陰性反應者,並由不知樣本狀態的技師,以運動賽事中相同的步驟與條件來實施檢測。就我看來,這些研究尚未適切完成,判斷陽性反應的標準依然無從驗證。

實驗室實務

二○○六環法自行車賽選手的樣本是由位於夏特奈-瑪拉柏里(Châtenay-Malabry)的法國國家反禁藥實驗室(LNDD)所檢驗;該實驗室是世界反禁藥組織認定,可對運動員採樣檢驗的三十四個實驗室之一。LNDD對蘭迪斯贏得第十七站後的尿液樣本發出警訊,原因是其中睪酮對表睪酮的比率過高。

基於初步的篩檢結果,LNDD對蘭迪斯的樣本進行了氣相層析─質譜分析以及同位素質譜分析,以量測其中的男性激素代謝物。這些實驗室的檢驗包含一系列頗為複雜的技術,以判定尿液樣本中植物性男性激素代謝物(來自食物或藥物)濃度出現異常的可能性;其目的是將之與身體產生的男性激素代謝物(正常狀態下亦存在於尿液中)區分。

進行質譜分析,需要謹慎處理樣品、有受過先進訓練的技師以及經精準校正的儀器。這個過程並不容易萬無一失。在處理、標示、儲存選手的樣本的諸多步驟中,每一步都可能發生錯誤。

在仲裁聽證會中,AAA捨棄了LNDD初步的篩檢結果,因為其步驟不妥。本人認為,無論靈敏度或特異度是否經過驗證,更複雜的進一步檢驗結果都應該是無效的。然而,AAA卻裁定質譜分析結果足以確認使用禁藥的指控。

在仲裁和回應藍迪斯上訴的過程中,LNDD 提供了一百三十九個無使用禁藥案例及二十七個使用禁藥案例的男性激素代謝物檢驗結果。我由藍迪斯辯護團的一位成員得到這些資料。區分陽性及陰性結果的標準是由世界反禁藥組織所設定,在圖表中中可見其套用於這些檢驗結果。但是,我們並無從得知哪些案例確實是陽性,哪些確實是陰性。這些門檻值的建立還算恰當,但僅限於定義對何者為陽(陰)性的假設;就判定陽性結果的標準而言,還需要更多對已知樣品的研究才能下定論。

建立「區別有或是沒有使用藥群體」之標準的方法,目前尚無人公開發表,也還沒有人著手進行測試,以建立靈敏度及特異度的資料。在沒有獨立進行的實驗,以進一步驗證這些方法前,檢驗都可能有極嚴重的偏誤。LNDD實驗室並不同意我的解讀;但如果將傳統的禁藥檢測提交給一個管制機關,譬如美國食品及藥物管理署(FDA)作為疾病檢驗的標準方法,會遭到拒絕。

取樣加乘的問題

蘭迪斯的檢驗結果似乎並不尋常。因為他身處領先群,他提供了八對的尿液樣本(二○○六環法賽的選手共被採樣了約一百二十六對樣本)。也就是說,有八個真正陽性反應的機會,也有八個假陽性反應的機會。如果他從未使用禁藥,且假定檢驗的特異度是百分之九十五,八對樣本全部出現陰性反應的可能性是零點九五的八次方,也就是零點六六。

因此,蘭迪斯在整個比賽中出現假陽性反應的機率是大約百分之三十四。就算檢驗的特異度是百分之九十九,出現假陽性反應的機率也有約百分之八。單一檢測的特異度必須提升到遠高於百分之九十九,才能把出現假陽性反應機率控制在可接受的範圍。但我們並不知道單一檢測的特異度,因為目前尚無人進行或公開發表適當的相關研究結果。

受測的總樣本數比單一選手受測樣本數更重要。當有一百二十六個樣本時,假設檢驗的特異度是百分之九十九,則出現假陽性反應的機率是百分之七十二。所以,一個看來異常的檢驗結果,若放在加乘的檢驗結果中來看,可能完全不算異常。統計學家都深知這點,因為他們常常要調整加乘的檢測。我相信必須要有比百分之九十九非使用禁藥者更異常的檢測結果,才能標示為「陽性」。

其他的禁藥檢驗也有和睪酮檢測一樣科學效力薄弱的問題;這包括在檢測自然產生的化學物質時,有時會出現被宣稱為檢出外來物質的結果。運動員的血液或尿液中檢出被禁用的外來物質,似乎就是違規使用禁藥的鐵證。但是就如同合成睪酮的檢測一樣,這樣的檢驗測量到的,實際上是會以不同濃度自然出現的藥物代謝物。

無論一物質是否能被直接檢出,從事運動禁藥檢驗的實驗室必須預先設定,並公開一套標準化的檢驗程序;這包括明確的陽性結果標準,且經過盲性實驗(操作者未知樣本狀態)驗證。此外,這些實驗必須提及各種變因,例如:樣本提供者服用的物質(包括禁用與非禁用者)、使用劑量、使用的方式、檢驗前多久使用、各人代謝情況的差異。

同樣的問題或多或少在其他地方也可發現,包括某些刑事鑑識實驗室。所有科學家對此都有責任。我們應該嚴謹思考跨領域合作事宜;我們也應設法了解其他科學家是如何對付類似的問題。在這同時,我們責無旁貸,必須告訴其他科學家,他們並沒有走在正確的方向上。

(本文原刊二○○八年八月七日《自然》雜誌,作者貝利(Donald Berry) 是德州大學安德森癌症研究中心的麥葛勞紀念癌症研究講座、生物統計系主任和計量科學組召集人。他曾在一九九七年的一場聽證會上,有酬的為一九九六年奧運選手斯蘭妮(Mary Decker Slaney)的辯護團隊作證。)
【知識通訊評論月刊七十一期】2008.09.01

« 汽車科技大革命∣回首頁∣知識創造大危機 »