數據“卡脖子”,何談研究話語權?

“我們國家在數據方面基本沒有話語權?!?| 圖源:pixabay.com圖源:pexels.com
在大氣、海洋等研究領域,中國普遍缺乏拿得出手的高質量數據。問題出在了哪里?
撰文 | 邸利會
責編 | 陳曉雪 馮灝
● ● ●
“我們國家在數據方面基本沒有話語權?!?/span>
談到IPCC報告里鮮有來自中國的數據時,A學者不無感慨地告訴《知識分子》。
這位要求匿名的研究者舉例說,在最新發(fā)布的IPCC第六次評估報告(IPCC-AR6)中(見報告附錄Ⅰ,觀測數據產品Annex I: Observational Products),列出了報告使用的所有數據產品,總共有283套,其中,中國貢獻的只有9套(含中國香港、中國臺灣),不僅數量少,且絕大部分是區(qū)域數據產品(如中國的氣溫、降水等)。
IPCC全稱 “政府間氣候變化專門委員會”,IPCC報告體現了整個氣候變化科學界的智慧,對各國氣候變化的政策制定有很大的影響。如此重要的一個報告,中國數據貢獻寥寥,令人遺憾。
在氣候變化領域,中國缺乏國際上拿得出手的高質量數據,事實上,這也是中國科學數據普遍貧弱的一個縮影。
拿不到的數據
相比國外,中國的某些科學數據很難拿到,可讓一般人想不到的是,國內難拿到的數據,反而很容易從國外拿。


中國氣象數據網(http://data.cma.cn,上圖)和NOAA氣象數據網站(下圖)。下圖中圓點就是站點,無須注冊即可下載各個站點的氣象數據(https://www.ncei.noaa.gov/),可溯至1951年。
例如,個人以普通用戶的身份登陸主流的氣象數據網站進行條目搜索,在中國氣象數據網(http://data.cma.cn),可選擇的地面逐小時觀測資料被限定在七天之內;而在美國國家海洋和大氣管理局NOAA的數據網站(https://www.ncei.noaa.gov/),各個站點的各項氣象數據非常完備,無須注冊,個人用戶就可以下載到詳細的氣象數據,以基本的地表溫度數據為例,最早可追溯至1951年。
這種 “怪事” 由來已久。
早在2016年4月發(fā)表的《公共數據不開放共享,中國就要落后》的文章中 [1],北京大學教授陳松蹊就談過他研究霧霾的尷尬經歷——北京氣象局的歷史數據需要花錢買,據說 “每小時只是幾塊錢,不貴的”。無奈之下,他們從美國一家氣象研究機構的網站上找到了北京南郊觀象臺每半小時的氣象數據,免費。
并非只有陳松蹊注意到這個問題。
在2017年11月的文章 [2] 中,Patrick Funk、薛瀾、梁正等來自中美兩國的學者指出,“在過去,中國大氣污染數據的收集分散且經常失真。很多數據無法公開獲得?!?“研究人員和機構為了最大化地發(fā)表文章,把數據捏在手里?!?/span>
他們認為,由于高質量的傳感器是被全國各個不同團體占有,而空氣污染的分析需要來自每個區(qū)域內多個站點的高質量數據,只有克服數據共享和合作的障礙才能更好地管理和減少中國的空氣污染;而且,如果只用有限的數據,還可能得到錯誤的結論——比如在理解臭氧空洞時,最初很多科學家和決策者不相信氯氟烴假說,但通過收集了不同范圍、各個平臺的數據后,這個假說得到了驗證。
不僅是在環(huán)保、大氣領域,在海洋研究領域,即使是作為領域內的研究者,A學者坦言,國內的數據獲取同樣困難——
“其實國內很多人去做測量,測量回來后,數據都是保密的,(攥)在自己手里,不給別人用。那么一個團隊能測多少數據呢?所以就沒辦法搞全局性的研究,因為數據量太少了。這樣的話就形成了類似于軍閥割據,大家都用自己手里的一點點數據,發(fā)幾篇小文章。中國的數據其實并沒有匯聚到統(tǒng)一的地方去?!?/span>
在海洋研究領域,中國通過數據共享貢獻給國際同行的也很少。
海洋觀測領域頗為知名的Argo計劃 [3],通過全球30多個國家的合作來維持一個全球海洋的觀測網絡,該計劃強制要求所有的參與方,必須把測出來的數據共享給國際,其中中國的數據貢獻少的可憐,大概不到4%。
“我們這么大的體量,其實(貢獻)也是比較小的,所以我們國家長期在海洋觀測領域是抬不起頭來?!盇學者說。
海洋極大且深,缺乏數據尚可理解,但令人驚奇的是,在普通人看來并不缺乏數據的領域,研究者想獲取數據也困難重重。
今年8月5日,國家青藏高原科學數據中心主任李新等人在《自然-地球科學》發(fā)表評論文章,呼吁數據共享 [4]。
作者們在政策、管理、技術、國際化四個層面提出了具體的建議。在政策層面,他們指出,應該進一步明確敏感數據及其使用界線——
“地球科學數據,尤其是涉及到國家安全、商業(yè)秘密和個人隱私時,本身可能是敏感的。為了最大化數據共享的實踐,很重要的是,要對敏感數據確立清晰的定義、共享界線和限制的規(guī)則。在共享限制規(guī)定之外的數據,共享的實踐應完全基于可查找、可訪問、可互操作、可重用的FAIR原則。”
李新等人提到的FAIR原則,是國際上幾位學者在2016年3月發(fā)表的文章中 [5],正式提出的,可以看作是提升數據可重用性的某種指南。之后,這些原則得到了不同國際組織的廣泛認可。
的確,界定清楚敏感數據以及各方的權責,是數據權利領域非常基礎的問題——如果不是保密數據,理應就不該以 “保密” 為緣由拒絕合理的分享。
可喜的是,尤其是近些年,中國也在努力提升數據共享水平。
2018年,國務院辦公廳印發(fā)的《科學數據管理辦法》,共19處提到共享,其中第19條規(guī)定,“政府預算資金資助形成的科學數據應當按照開放為常態(tài)、不開放為例外的原則,由主管部門組織編制科學數據資源目錄,有關目錄和數據應及時接入國家數據共享交換平臺,面向社會和相關部門開放共享,暢通科學數據軍民共享渠道。國家法律法規(guī)有特殊規(guī)定的除外?!?/span>
2019年,國家海洋科學數據中心、國家青藏高原科學數據中心、國家人口健康科學數據中心、國家天文科學數據中心等第一批20個國家數據中心上線。
但這里提到的科學數據究竟包含了哪些?里面卻存在著模糊地帶。
舉例來說,涉及到地球科學領域的數據,很大部分來自政府部門——
其中的一大類是由各個部委,根據其業(yè)務職能,在國家財政的支持下,成體系、成規(guī)模地開展各種資源、環(huán)境調查等所得到的數據(如水利部門開展的全國河流斷面的水位、流速等監(jiān)測數據;林業(yè)部門開展的林業(yè)調查樣方數據;環(huán)保部關于各種類型的空氣質量、水域污染物等數據;自然資源部的土地調查數據等)。
這樣一些部門的數據,如何界定其中的科學數據,是要討論的地方,屬于一個灰色地帶。中國目前還沒有明文規(guī)定什么類型的業(yè)務數據應當作為科學數據進行管理,因為一旦歸入科學數據進行界定,按照《科學數據管理辦法》,現在理應轉移到20個科學數據中心或者其他合理的數據倉儲,按照科學數據共享的原則、方式來做。
除了各個部委產生的數據,在地球觀測領域,另外一大類是采用制作衛(wèi)星載荷、統(tǒng)一發(fā)射、統(tǒng)一接受、統(tǒng)一管控、統(tǒng)一處理,然后分發(fā)到主要牽頭的部和委(作為衛(wèi)星數據的主用戶)而獲得的數據。
從實際情況看,這兩大類數據,因為未被明確劃入科學數據,科研界都難以獲取。
在之前的文章中,陳松蹊表示,“氣象局、環(huán)保局已經開始對氣象、環(huán)境信息通過網站即時發(fā)布。但對各學科的研究者來說,規(guī)范的長時間的歷史數據更有科學價值。然而獲取規(guī)范的長時間的歷史數據仍是無路可循。往往要通過關系,甚至高價購買。”
可國內拿不到的數據,從國外卻可以免費拿到。陳教授在上述文章中提到,“我后來和北大一數學院士談起此事,他說北大一同事所研究的中國地表方面的數據也是從美國得到的??磥磉@不是一個部門的問題?!?/span>
外國的數據更“香”嗎?
一些學者能夠方便地從國外拿數據(包括產生于中國的數據),得益于這些國家較成熟的數據政策和實踐。
以遙感數據為例,在歐洲、日本、澳大利亞、德國,這些發(fā)達國家里,美國對地觀測的科學數據在本身的質量,國際開放的程度等一直是比較領先的。
據劉潤達等 [6],美國很早就鼓勵信息自由流通,希望信息在流通中增值。
具體來說,美國的《自由信息法》要求聯(lián)邦政府部門將政府信息向公眾開放并接受公眾的監(jiān)督,允許向任何的公共或私人事物進行拷貝;此外,美國的《版權法》明確規(guī)定,版權保護條款下的版權保護 “不適合于美國政府的作品”。
在地學領域,1991年7月,美國白宮總統(tǒng)科技政策辦公室發(fā)布了 “全球變化研究數據管理政策聲明” [7],從此,美國聯(lián)邦政府明確提出,將 “完全與開放”(Full and Open)的數據共享政策作為國家科學數據共享的基本國策。美國國家研究委員會在其研究報告中指出,要遵循 “數據的價值在于使用” 的原則 [8],科學數據的 “完全與開放” 獲取原則應被采納, 并將其作為公共資助研究所產生的科學數據交換的國際標準。
美國國家航空航天局(National Aeronautics and Space Administration, NASA)、美國地質調查局(United States Geological Survey, USGS)、美國國家大氣研究中心(The US National Center for Atmospheric Research, NCAR)、美國國家海洋和大氣管理局(National Oceanic and Atmospheric Administration,NOAA)等機構,也很大程度上秉承了這些理念,在數據的收集、儲存、分析、共享方面走在世界的前列。
在美國,這些機構也是屬于典型的業(yè)務部門,因為美國聯(lián)邦相關的法律規(guī)定,這些部委對于數據開放和共享的認識、共識等要比較深入,所以數據開放,徹底和免費的程度等還是非常高的。
除了 “公開” “免費” 的好處,這些機構的數據之所以有吸引力,還有兩個特點:首先,具備長時間的特征,比如有長達幾十年的地表環(huán)境變化研究或者全球變化研究的數據;其次,數據的一致性等方面質量較高。
這方面知名的一個例證是USGS的Landsat項目。該項目從1972年開始已經發(fā)射了8顆系列陸地觀測衛(wèi)星,是目前為止地球持續(xù)觀測時間最長的一個衛(wèi)星系列。美國政府通常免費提供由政府資助的地球觀測衛(wèi)星獲得的圖像,而Landsat此前是個例外,直到 2008年USGS通過互聯(lián)網免費提供了Landsat數據。
Zhe Zhu 等人的研究指出,“隨之而來的是 Landsat 圖像下載量的大幅增加,并導致科學和業(yè)務應用程序的迅速擴展,為政府、私營部門和民間社會提供服務。Landsat計劃因此為世界各地的航天機構提供了一個關于開放獲取地球觀測數據的價值的例子,并刺激了全球,包括歐洲的哥白尼計劃,采取了類似的政策。” [9]
而在海洋研究領域,A學者表示,美國的數據中心也是最受國際尊重的。
“因為他們確實做了大量的工作,我們之前的很多研究也都是和美國、歐洲的數據中心的人一起合作完成的。他們也比較開放,我們研發(fā)的方法他們也會用,已經用到美國的數據中心去了,所以是一個非常健康的良性的互動?!?A學者說。
不僅是數據的開放,開放的思維也貫徹在整個數據中心的建設上,比如充分利用 “外腦”。
NASA就有這方面的例子——
馬里蘭大學,因為地域的原因,開車幾十分鐘就可以到達戈達德太空飛行中心(Goddard Space Flight Center),該校很多老師是NASA數據衛(wèi)星的科學團隊成員。
就整個數據處理流程和人員安排來說,根據每顆衛(wèi)星任務的不同,NASA每次會組建不一樣的科學團隊,指導衛(wèi)星的設計。等衛(wèi)星上天,數據傳回后,科學團隊緊接著為數據產品的研制和將來的數據生產設計算法。
之后,NASA的數據中心內部的一支專門的工程師團隊,做硬件的、做基礎和應用軟件的,接過手來,把科學團隊的算法在計算機系統(tǒng)上實現。
最后,NASA還有一支專門做對外服務的團隊,不定期對外宣講,豐富數據產品文檔、實驗過程、地面控制以及各種數據庫。
充分利用 “外腦” 組建的科學家團隊、專職的工程師團隊、專業(yè)的對外服務,如此三位一體的安排,除了NASA,也被USGS、NOAA、NCAR所采用。相比較而言,國內的數據中心在這三個方面都存在一定程度的差距。
國內的人才困境
相比國外這些較為成熟的數據政策、體制機制,制約中國科學數據發(fā)展的核心還在于專業(yè)人才的缺乏以及不合理的評價體制。
他山之石或可攻玉。以上文提到的Landsat為例,這個跨越了40多年的項目,USGS的數據中心團隊幾十年如一日,跨越不同的物質形態(tài)和技術手段,整理分析甚至是膠片的、磁帶的記錄,持續(xù)性地保證Landsat科學數據的國際共享價值。
但這種幾十年如一日的工作,如果是放在國內做,在科技評價中則不占便宜。
作為海洋數據研究領域的學者,A學者對此有深刻的體會——
“我個人的感受就是我們國家的基礎研究其實還是非常弱的。對于全球變化,要判斷全球到底有沒有變暖,海洋溫度的上升,冰川的融化,這些主要的判斷要依據數據,這個很基礎,只有知道了怎么變才能去應對它…… 其實國內有很多人去做測量,但沒有專門去做數據的,因為做數據的人在現行的體制下,很難活下去,(當前的評價體制)要求你不斷去寫論文,但是做數據天然地需要花大量的時間去了解數據是長什么樣子。這也是為什么大家不太愿意去做(數據)工作的原因?!?/span>
圖靈獎得主 Jim Gray 在2007年加州山景城召開的一次會議上,發(fā)表演講 “第四范式,數據密集型的科學發(fā)現”,提出今天的科學已經進化到可以是數據驅動的發(fā)現 [10]。從涉及到地球各個圈層的氣候變化研究,到關系到人類健康的遺傳基因組、蛋白組、臨床試驗,數據成為了必不可少的創(chuàng)新源泉和力量,再沒有什么時候比重視數據基礎建設和共享更迫切的了。
中國在數據方面的基本功建設依然任重道遠。
制版編輯 | 盧卡斯


