前言:尋找寫作靈感?中文期刊網用心挑選的數據期刊的發展現狀及趨勢,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
科學研究數據應該公開分享已被科學界廣泛認可,實際上,科研人員也越來越多地引用數據庫中的數據集,例如,基于Scopus文獻列表和Databib數據庫的統計顯示,從1996年到2013年數據庫被引用次數的年均增幅為19%[1]。隨著人們對研究數據的發現和再利用的興趣增加,數據集以某種帶有質量控制和歸屬性的形式出版也日益顯得必要,數據發表和數據期刊也應運而生。本文通過對代表性數據期刊的學科屬性、出版方式、載文量演變、引證指標等進行統計和分析,全面梳理目前數據期刊的學術影響力和發展趨勢,并對國內外數據期刊出版政策進行調研,以期為我國數據期刊發展的途徑和措施提供參考。
1數據論文與數據期刊的緣起
數據是科研成果重要的支撐材料,從長遠來看,數據的價值甚至可能更高于其所產生的科研成果。科研人員越來越希望擁有訪問基于期刊文章結果數據的權限,以對數據進行個人探索并大規模挖掘,正因為如此,數據共享已經成為科研過程中利益相關者關注的焦點。早在2003年的《柏林宣言》中就已經明確將科研數據作為學術知識的一部分;2012年英國皇家學會也認為“未來真正能夠被利用的科學數據是以智能化開放數據為表現形式”,同時“敦促科研人員應該在合適的數據知識庫里存儲數據,讓人使用和驗證數據”;2017年7月,歐盟“地平線2020”計劃要求所發表的研究論文必須開放出版或在出版后存儲到開放知識庫。由此可見,科研數據的開放共享已經成為一種新興的學術要求和趨勢。在全球“數據共享與再利用”的大背景下,科研數據的存儲與管理顯得日益重要,對科研數據的傳播方式主要分為以下3種:1)數據(遵循版權協議的前提下將數據在網絡或其他媒介上);2)數據資料(以論文附件形式或將論文相關數據存儲在數據知識庫中);3)數據論文(以正式的期刊論文形式對實驗和觀察數據集進行描述)。隨著數據出版的發展,國際上有很多期刊都制訂了“科學數據共享政策”,數據期刊也應運而生。數據論文是正式的學術論文,遵從學術發表規范,接受嚴格的同行評議。數據論文與常規學術論文有很大不同:數據不是支持學術觀點的輔助性材料,而是論文主體,它并不重點報道基于科學假設和科學問題的研究結果,而是重點描述科學數據本身;發表的是可被檢索的元數據文件,用以描述單個或一組可在線訪問的數據集,其內容主要是對數據采集、獲取、處理等過程和方法的描述,不涉及對數據和研究結果的推論、發現以及假設論證,目的是讓科研群體更好地發現、獲取、理解、復用數據,并再次進行科研創新。數據期刊指那些致力于發表數據論文的期刊,其重在描述實驗和觀察數據,并有效整合傳統學術論文的內容和結構,力求在最大程度上促進數據重用,幫助用戶進行檢索和數據挖掘。數據期刊大致分為2種:一種是混合性數據期刊,出版數據論文的同時,也出版綜述、研究論文、會議報告等類型的文章;另一種是純粹數據期刊,其出版單元全部為數據論文。
2代表性數據期刊的特征分析
本文根據上述數據論文以及數據期刊的概念,對目前國內外已經開展數據出版的期刊進行調研,據不完全統計共有26種數據期刊符合上述特征。發表描述軟件以及其科學影響的軟件論文,刊發實驗過程中開發和使用的方法、材料的材料和方法論文的期刊,以及自創刊至今發表數據論文的數量小于5篇的混合性期刊均不作為本研究的重點對象。由表1可見,按照WebofScience(WoS)對期刊學科領域的分類,調研的26種數據期刊涵蓋了生命科學與生物醫學(10種)、綜合性(6種)、自然科學(地球科學、化學等5種)、應用科學(信息科學、計算機軟件2種)、藝術與人文科學(1種)、社會科學(2種)等多個研究領域。從學科分布來看,包含多個學科的綜合性期刊占比最高,有6種(23.08%),包括《F1000Re-search》《DatasetPapersinScience》《ScientificData》《DatainBrief》《中國科學數據》《Data》。地球科學、氣象與大氣科學的數據期刊數量排名第2位,有4種(15.38%),包括《EarthSystemScienceData》《GeoscienceDataJournal》《全球變化科學研究數據注冊與出版系統》《全球變化數據學報》。生物化學、基因遺傳與分子生物學學科有3種數據期刊,排第3位(11.54%),包括《HumanGenomics》《BMCResearchNotes》《GenomicsData》。其他為:植物科學、生物與醫學、信息科學與機器人科學各2種;動物學、環境與生態學、農學與生物科學、化學、考古學、心理學藝術與人文科學各1種。在26種數據期刊中,有14種是純粹的數據期刊,專門發表數據論文,另12種是以數據論文作為子欄目之一的期刊,也收錄其他類型文章。目前對于數據論文的命名還未有統一的規定,各期刊根據自己的內容特點來選取名稱,對于科研人員在檢索數據期刊或論文的過程中可能會造成一些障礙。現有的數據期刊以Datapaper命名的最多,有13種;其次是以Datanote命名,有3種;以Dataset/數據集、Datadescriptor、Dataarticle命名的分別有2種;除此之外,還有Database、Genomedatabase、DatainBrief、Metapaper這幾種命名方式。對數據論文的命名不同一定程度上反映了數據期刊發表數據論文的內容差異,例如:Pensoft出版的幾種數據期刊發表的數據論文均被稱為Datapaper,其內容是對大的數據集的描述;《BMCResearchNotes》《GigaScience》發表的Datanote文章主要描述生物學、醫學、遺傳與分子生物學方面的數據集或數據庫,并且可以從關聯的數據庫中獲取發表的數據信息;《DatasetPapersinScience》發表的Dataset是對數據集進行描述的文章;《ScientificData》發表的Datadescriptor是對有科學價值的數據集進行概述的文章;《GenomicsData》發表的DatainBrief文章對基因組數據進行詳細的描述,并包括對試驗方法和質量控制分析的介紹;《HumanGenomics》發表的數據論文以GenomeDatabase命名,表明其文章內容均為基因組數據。本次調研的26種數據期刊均采取開放獲取(OA)的方式出版,其中個別不屬于全OA出版的期刊其發表的數據論文也可被在線免費獲取。數據論文的文章處理費用(APC),除了《EarthSystemScienceData》等4刊目前是免費之外,其他數據期刊的APC為$127~3000。其中:≤$500的16種,占61.54%;$501~1000的3種,占11.54%;$1001~2000的4種,占15.38%;$2001~3000的3種,占11.54%。在出版周期方面,部分數據期刊打破了按照固定周期出版的模式,14種數據期刊只要數據論文通過同行評審,隨時可以在線發表。在26種數據期刊中,有10種被SCIE收錄,其中屬于純數據期刊的包括《GigaScience》等4種,2016年的影響因子分別為6.696、6.871、2.8和4.836,在10種數據期刊中分別排第1、2、5、8位,從影響因子指標的角度可見純數據期刊的影響力比混合數據期刊好。
3國內外數據期刊發展的現狀及出版政策
1999年美國生態學會(ESA)出版的學術期刊《Ecology》首次刊發數據論文,2001、2003、2008年OA出版商BiomedCentral先后創辦了《BMCPlantBiology》《HumanGenomics》《BMCResearchNotes》3種數據期刊,2008年Pensoft創辦了《ZooKeys》,但這5種均為混合數據期刊,只是將“數據論文”作為一個子欄目。2009年Copernicus創辦了一種純數據期刊《EarthSystemScienceData》,自此每年都有新的數據期刊創立。從2012年開始,數據期刊呈現快速發展態勢,2012—2014年間創刊的數量劇增,3年間共創辦了13種,占目前數據期刊總量的50%。我國第一種數據期刊是2014年中科院地理科學與資源研究所發行的《地理學報增刊》,該刊介紹有重要共享價值的科研數據,同時配合“全球變化科學研究數據注冊與出版系統”的運行。2016年,中科院計算機網絡信息中心創辦了《中國科學數據》數據期刊,中科院地理科學與資源研究所于2017年創辦了《全球變化數據學報》。從數據論文的發表數量來看,自2012年開始,數據數量平均每年以115.42%的比例增加,至2016年發表數量達到最高,為1616篇。從發表數據論文的總量(表1)來看,截至2017年《DatainBrief》發文量最大,為1553篇。為了實現數據的可利用,必須制定合適的數據共享政策及機制,以促使科研人員能夠有效地共享并利用數據。目前國際上一些有影響力的大型出版社紛紛對科研數據的存儲以及傳播提出明確政策,幾個典型數據期刊出版社的數據出版政策詳見表2。
3.1數據存儲位置
數據期刊或數據論文的核心是數據,因此,數據存儲位置是期刊數據出版政策的重要組成部分。目前主要有2種數據存儲方式。1)要求作者將數據按照特定類型提交并存儲在適當的第三方公共倉儲中。大部分數據期刊屬此類情況,如BMC、Springer-Nature、Elesvier均為每種數據類型推薦相應的數據倉儲清單(Genbank、DDBJ等)。如果某些特殊數據類型找不到合適的存儲位置,可選擇通用倉儲進行存儲(Figshare、Dryad等),作者提交數據論文時提供注冊號或檢索地址。公共數據倉儲使數據更易被發現和獲取,并提供數據的格式化存儲,支持特殊領域的數據發表標準。2)數據期刊有自身的數據庫,允許將數據直接提交到期刊的數據庫中。如《Ecology》發表的數據論文要求作者將數據提交至ESA官方數據倉儲EcologyArchives中,BMC出版的《GigaScience》有自己的數據存儲庫GigaDB。
3.2數據質量控制
數據的質量控制涉及數據的格式、內容與注釋的完整性、同行評議等,精確、規范的數據是保證數據論文質量的前提。Springer-Nature出版的《ScientificData》對其發表的數據論文進行結構化和規范化,要求提交的稿件包含題名、摘要、方法、數據記錄、技術驗證、用法說明、圖和表等要素,并符合對應的格式要求,這有利于信息檢索、分析挖掘以及相關利用。那些存儲在公共數據倉儲庫的數據,應該遵循不同數據倉儲庫的存繳、出版和共享政策,例如Pensoft與全球生物多樣性信息網絡(GBIF)聯合啟動了數據論文示范項目,作者提交數據論文時需遵從GBIF的元數據規范。Springer-Nature對數據質量進行控制的方法包括:對于數據描述符的內容信息是否符合規范進行審核;對于數據及產生流程的科學性進行專家評審。不同學科類別會成立專門的編委會來對數據進行評審,編輯和審稿人會評估數據描述的完整性以及與現有共同標準的匹配度、數據收集過程的技術嚴謹性、數據集的重用價值、用于存儲數據的知識庫是否合適。
3.3作者權益管理
政府、基金資助組織、科研機構和期刊出版界近年來陸續研究和制定了科學數據的管理和共享政策,大多數出版社和期刊都鼓勵甚至強制規定作者采用知識共享署名協議(CC-BY)。除ESA出版的《Ecology》的數據論文未提及作者版權歸屬外,其余的數據期刊均提到作者保留對其數據論文的著作權合法利用。對引用權限和創作許可的規定,不僅能夠保證對數據論文的合理使用,更是對作者數據貢獻的一種承認,同時也有助于跟蹤數據重用和科學家的數據分享活動。Springer-Nature出版的《ScientificData》和Elsevier出版的《GenomicsData》規定他人在使用作者提供的數據時,可自行選擇遵循CC-BY4.0或知識共享署名非商業使用(CC-BY-NC4.0)或知識共享署名非商業使用以共同方式共享(CC-BY-NCSA4.0)許可協議。Pensoft出版社采用開放數據共享署名(ODC-BY)作為數據發表的首要和默認協議,此外也強烈推薦作者采用知識共享豁免(CC-Zero)和開放數據共享公有領域的貢獻與許可協議(PDDL)。所有數據期刊都有明確的引用要求,并給出了引用示例。因為同時涉及數據和論文引用,所以對數據論文的引用與傳統的文獻引用有所不同。《ScientificData》建議,其他人引用數據論文時用傳統的參考文獻格式引用數據描述符,引用格式包含:作者、題名、刊名、卷、文章號、數據對象標識符(DOI)、年份。Pensoft期刊有分別針對文中和文后數據和論文引用標準的示例,內容包括作者、年份、數據/論文題名、數據存儲平臺/期刊、數據標識符/卷頁碼DOI。
4我國數據期刊出版發展的建議
我國數據期刊出版起步較晚,在科研數據的存儲、管理和發表上與國外相比還存在明顯的差距。雖然從“十一五”開始已經陸續建設領域數據存儲平臺;但由于缺乏統一的標準和規范的數據提交政策,仍然缺乏廣泛影響力的科學數據存儲平臺。同時數據的質量控制也是當前數據期刊還要進一步解決的問題,數據質量不僅包括數據集的真實性、可靠性,也要求數據集的元數據符合領域或者相關標準,以便增加數據復用的便利程度。另外,對于衍生數據和加工數據的發表標準也還在進一步的探討中。我國學術期刊大多歡迎作者提供可編輯的原始數據,但并未建立嚴格的科學數據審查機制,要求作者負責數據內容的精準和完整。此外,國內期刊對數據共享和傳播的態度較為保守,限制數據復用會阻礙數據期刊的持續性發展。目前,中國科學院地理科學與資源研究所與中國科學院計算機網絡信息中心都將數據存儲在自己的數據庫中。其中,全球變化科學研究數據注冊與出版系統網站提供了基礎的共享政策和作者投稿政策,但作者服務政策、數據保藏政策和同行專家評審政策還沒有公布。其網站的技術文檔中提供了詳細的數據論文出版格式、元數據標準、同行評議表、出版流程和DOI注冊編碼和規則。中國科學院計算機網絡信息中心出版的《中國科學數據》有明晰的投稿指南,詳細規定了出版條件、投稿要求、寫作要求、投稿方法和評審過程,但沒有具體的同行評審和數據引用標準,采用CC-BY4.0共享許可協議。隨著我國《科學數據管理辦法》的,有關科學數據的共享、安全、傳播等問題必將受到科學技術行政部門、科研機構、出版界等多方人員更大重視。基于國內外科學數據出版和數據期刊的調研,本文建議從以下3方面加強我國科學數據共享與傳播工作。
1)建立數據倉儲并加強期刊與數據庫的關聯。目前我國的數據期刊僅是通過自建的數據庫相關聯,建議參照國外經驗,對于專業性強的期刊,可以按公共數據倉儲的要求建立專業數據倉儲(如生物學、地球科學、醫學等),供相關專業數據期刊集中進行數據出版;對于綜合性期刊,可建立統一的公共數據倉儲。此外,建議加強與國外數據庫的關聯,共同推進科學的數據管理、、共享、復用數據生態體系。
2)健全數據質量控制和評議標準。科學數據作為重要的科研成果被納入到學術出版體系中,對其質量加以控制尤為重要。進行數據出版時,應采用嚴格的同行評議機制,尤其要提請評審專家對數據及數據說明的完整性、數據格式的標準性、形成數據的方法及過程的嚴謹性和科學性進行有效評價。此外,由于元數據是出版內容的基本單元,對各平臺實現互操作具有重要意義,因此對元數據結構標準進行規范是保證各期刊出版數據高度共享的關鍵舉措,在制定數據出版格式標準時應充分考慮數據格式的完整性。
3)制訂科學數據統一的引用規范和標準。由于缺乏規范的數據引用機制,科學家擔心數據被盜用、數據共享無法體現學術平等。數據期刊要實現數據被全世界的科研工作者檢索查詢、閱讀和引用,必須有大家共同遵守的引用規范和標準。數據期刊應該與數據中心共同制定規范的引用格式,并有明確的引用說明,這些規范和標準應具有普適性和通用性。在新型出版模式下,學術期刊的作用不僅僅局限在提供文獻資料支撐上,而是與知識服務緊密結合起來。只有通過各方的努力和實踐,數據期刊的優勢才能更好地發揮出來,從而更好地推動科研的發展。