如何評斷科學的成功

知識新知 10/01/2012


如何評斷以及預測科學家的科學表現,是目前競爭激烈科學界的頭等大事,目前公認極具參選性的是h-指標。現在有人提出新的公式,來確預測未來的科學表現。

我們科學家經常為未來的研究生涯感到焦慮。我們做的究竟會是令人振奮的科學之路,還是讓我們科學生涯中輟的困局?諸如聘人委員會、資助機構以及需要調查科學家履歷的各部門負責人。

每天的工作就是在預測科學的未來發展。

其中常用來評鑑科學家表現的一種標準,是物理學家赫西(Jorge Hirsch)提出的h-指數;h-指數同時將論文的質(引用次數)與量(數量)列入考慮,比其他採用單一指標的方法,更能呈現研究者的科學成就。一個科學家若發表n篇論文,且每篇至少被引用n次,他的h-指數就是n。例如愛因斯坦、達爾文以及費曼(Richard Feynman)的h指數分別是高的嚇人的96、63以及53。根據赫西的說法,一個h指數為12的物理學家,有十二篇被引用十二次以上的論文,市是足以讓他在重點大學享有終身職的衡量標準。

然而h-指數以及類似的評鑑標準只能表示過去的成就,不能預測未來。現在我們嘗試以科學家履歷中所得到的大多要素為基礎,來推算其人未來的h-指數。

我們仍須強調,由同儕評估科學貢獻以及研究深度,才是預測科學家為未來生涯成就最好的方法,但我們的方法或能作為有用的輔助工具。

少不了的統計資料

為找到方程式預估科學家未來的h-指數,我們蒐集大量數據,並利用電腦的機器學習技術進行分析。我們最初的樣本來自academictree.org——一個多資訊來源的網站,將科學家的導師、受訓生以及共同研究者都列名其中。它的名單包括了三萬四千八百名神經科學家、兩千名果蠅研究科學家以及一千三百名演化研究人員。我們將作者與線上學術論文及引用數據的資料庫Scopu來進行配對。此外,我們也篩選了分析對象:h-指數大於四(以排除研究停滯的科學家)、而且是一九九五年後發表的論文(因為在此之前很少有電子記錄)、同時作者必須是在過去五至十二年間發表其第一篇文章,並且有登錄在Scopus資料庫中。

篩選後,共有三千○八十五名神經學家、五十七名果蠅研究員以及一百五十一名演化學家。我們再建立這份名單的出版、引用以及接受贊助紀錄。

針對每個科學家開始發表著作後的每一年,我們都用當時的要素預估未來數年的h-指數。例如,在科學家發表了第一篇文章,我們重整出他的個人簡歷在往後五年的表現要素,並且找出未來五年這些要素與重建的h-指數彼此的關連。

從神經科學家開始,我們嘗試使用彈性網正則化(elastic net regularization)的線性回歸法,預估每名科學家之後五年的h-指數,這個時間長短與終身職審核有關。這個方法能準確預測出未來的h-指數,產生R二為○.六七的良好結果(R二越趨近一表示預測數據的模型越完美),並通過其他科學家交叉驗證。一個簡化的模型只包含發表過的文章數、h-指數、在著名神經學期刊(如《自然》、《科學》、《自然神經科學》、《神經元》以及《美國國家科學院院刊》)上發表的文章數,而且即使期刊數目不同,表現仍然一樣好(R二為○.六六,見《預測你未來的h-指數》)。

預測果蠅與演化科學家未來發展的結果較為不佳(以科學家入行三至十五年的職業生涯為基礎,R二分別為○.五四及○.六一)但仍然比單獨考慮h-指數所做的預測好(R二分別為○.三八及○.三九)。由此看來,對於生命科學範疇內外的學科,這種概括性論斷是有其限制的。但對神經學家而言,至少對未來的預測可以延伸到更長遠的時間,例如未來的十年(R二為○.五二)。隨著時間演進,單獨使用h-指數的結果遠遜於這種將所有因素列入考慮的統計方法(見《成功的道路》左幅)。

主要用來預測的五個要素,隨著預測期間的增加,重要性也有所改變(見《成功的道路》右幅)。h-指數的影響力減弱。論文數、個別期刊的差異性以及發表在五個享譽國際期刊上的論文數,都隨著時間增加而變的更有影響力。

洞悉未來

隨意解讀這些結果是有風險的。然而,我們將簡單推測,為什麼這些因素能如此有效地預測未來成功。某些要素直接影響到高h-指數的潛力,例如論文數量。這些要素也能間接影響到科學家未來的成就,因為曾經發表許多論文的多產科學家,通常會保持這種高產量。而論文發表在許多不同期刊,將可以降低引用這些論文科學家重疊的機率,進而提高論文發展的潛力。在幾個截然不同期刊上都有著作發表的科學家,也可能受到訓練更廣泛,貢獻也較為多元。在頂尖期刊上發表的論文數,能夠增提高這個科學家無論是過去或未來發表的其他論文的能見度。

若是晉升、招聘還是資助都大量倚賴指數(無論是這裡的範例—h-指數,還是其他方法),某些科學家就會修正自己的行為,以盡量提高成功機會。像我們提出的這種模型,將數個層面同時納入考慮,比考慮單一因素,研究人員將更難去操弄。

對需要應付大量申請卻只能進行粗略審查的資助機構、同行評審以及招聘委員會等機構而言,我們的公式特別的有用。統計方法的優點在於能夠立即且無偏差的取得結果。利用龐大數據組的建構及分析來追蹤科學生涯。還有助於辨識如性別、種族等等的潛在偏見,幫助我們瞭解科學是如何進展。

儘管我們的發現以及預測無法減輕科學家對於生涯發展的擔憂,但是令人稍感安慰的是,研究結果顯示我們還是能窺見未來的一些跡象。儘管偶爾發生的退稿事件會令人感到不公正及不夠嚴謹,但是長遠看來,這些因素會平衡消去,使得h-指標的預測性提高。

(本文是伊利諾伊州芝加哥康復研究所共同研究及西北大學研究員阿肯拿(Daniel E. Acuna) 、芝加哥大學電算研究所以及生態與演化助理教授亞力西納(Stefano Allesina) 以及西北大學以及康復研究所生理醫學與康復、生理及應用數學副教授科爾丁(Konrad P. Kording)在二○一二年九月十三日《自然》雜誌專文)
【知識通訊評論月刊一二○期】2012.10.01

« 基因裡的人類遠古故事∣回首頁∣一舉三輸的過度投資 »