前言:尋找寫作靈感?中文期刊網用心挑選的醫學基因組學大數據與數據庫的發展,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
【摘要】在高通量基因檢測和信息技術的加持下,醫學基因組學的大數據構成了精準醫學的基礎工程,推動了人類在分子層面上深入認識疾病和健康的進程。通過分析醫學基因組學的大數據及其數據庫的功能、作用和特點,闡述其對醫療及健康產生的重大影響及以安全、規范、有益的方式推進和使用的必要性。
【關鍵詞】基因組學;醫學;數據庫;大數據
基因組學在21世紀獲得了快速的發展,主要是依賴于基因測序技術的發展和信息技術的加持。由于生物技術和信息技術的互相滲透和協同,在計算機科學的算法、算力及軟件的支持下,基因組學技術的成本正在以超過摩爾定律的速度下降。過去完成一個全基因組測序分析需要幾天,現在只需幾個小時就可完成。由于成本及速度的極大改善,基因組大數據正在以PB(1PB=1024TB)到EB(1EB=1024PB)的數量級累進,而目前全球每年產生的基因組學數據已接近EB級別。
一、醫學基因組學大數據現狀
基因組學是一門研究基因組的科學,其作為生命科學及其他學科的基礎已經成為發展最快、最活躍的一個領域,也是21世紀生命科學發展的前沿和方向[1]。基因組學通過基因測序和分析研究基因的結構與功能,解釋更多基因與生物體之間的關系,其與轉錄組學、蛋白組學、代謝組學共同構成了系統生物學中組學研究的基礎[2]。基因組學及其相關產業能迎來快速發展的時期是始于人類基因組計劃(humangenomeproject,HGP),由美國率先發起,英國、法國、德國、日本和我國科學家共同參與的一項規模宏大、跨多學科、跨多國家的科學探索工程[3]。HGP于1990年啟動,歷時13年于2003年4月25日完成,其中2001年“人類基因組序列草圖”的發表被認為是HGP成功的里程碑。自從HGP完成以來,對科學發展和社會各界都產生了非常深遠的影響,極大的推動了生物醫學的研究,也為更多科學問題的探索提供了新路徑[4]。醫學基因組學大數據正是在這種背景下產生和發展,是指生物醫學中的組學數據,包括基因型、表型數據等,通過生物信息分析,能為健康和疾病提供決策依據的數據[5-6]。這些數據具有大數據的特點,體量大、匯總雜、分析難,其加工處理對科技人員的素質要求也非常高,需要具備基因組學、分子生物學、生物化學、藥理學、分子遺傳學、生物信息學、統計學、線性代數、數據挖掘、分布式計算、軟件工程、數據庫、網絡工程、信息安全、數據加密等復合知識和能力。因此,這遠非個體所能完成,而是需要通過團體的力量去完成的系統工程[7]。醫學基因組學的大數據是需要用特殊的軟件工具進行捕捉、管理和處理的數據集合,是用新處理模式才能實現具有更強的決策力和洞察力的數據信息源,是具有海量、高增長性和多樣化的信息資產。基因組數據量越大,越能細分人群特征,越能聚類發現未知問題。這對于復雜疾病的病因探索、疾病預防和健康管理具有重要價值。醫學基因組學大數據非常復雜,人類基因組是由30億對堿基構成,隨著不同地域、人種、時空等因素不斷發生變化,首先要從中找出堿基對的異同,然后根據異同還要對應到表型的一致性改變來進行關聯分析。顯然,僅依靠人類的頭腦來計算是無法實現的,而計算機助力了這些應用,也決定了這項工作的效率、成本、準確度[8]。同時,大數據資源也可以用于交換,未來像商品一樣流通。農耕時代土地是資源,工業革命時代礦產是資源,互聯網時代信息是資源,人工智能時代大數據就是資源。通過大數據分析可以指導醫療健康活動,如發現特別的基因位點,用于藥物的研究等。大數據分析需要高素質的復合性人才,還要算法、算力和軟件的輔助,需要政府、醫療機構和科技公司團隊的協作和共同努力。如無創產前基因檢測[9]、耳聾基因檢測[10]、病原微生物基因檢測[11],大規模人群篩查檢測項目形成了重要的公共衛生大數據的原始積累。
二、國內外基因組學大數據及數據庫研究中心
隨著新的生物學技術方法的出現和基因測序成本的降低,生物醫學數據和信息進入了快速增長的階段,更多生命科學的研究已經開始向臨床醫學轉化方向發展。在國際上,各國已經陸續開展了很多大規模的基因組測序計劃。基因測序目標不僅是人類還包括許多動物、植物和微生物,如千人基因組計劃[12-13]、水稻參考基因組項目[14]、地球生物基因組計劃[15]。隨著基因組測序計劃的啟動加速了復雜和多樣化的組學數據的積累,而處理這些龐大且具有科研價值的數據,需要安全存儲、開放共享、集中管理和應用轉化的平臺。
(一)美國國立生物技術信息中心
美國國立生物技術信息中心(NationalCenterforBiotechnologyInformation,NCBI),創建于1988年。當時由于計算機信息化處理生物醫學數據的需求越來越大,為了提供一個可以存儲、分析和管理的平臺,促進生物醫學的進一步研究和發展,美國創立了NCBI。目前該平臺包含眾多數據庫和數據檢索分析工具,其中GenBank核酸序列數據庫匯集并注釋了所有公開的核酸序列,并與歐洲核酸序列數據庫和日本的DNA數據庫中心達成國際核酸序列數據庫共享數據的合作[16]。
(二)歐洲生物信息研究所
歐洲生物信息研究所(EuropeanMolecularBiologyLaboratory-EuropeanBioinformaticsInstitute,EMBL-EBI)成立于1994年,是一個可以向全世界科學家提供免費生物信息資源的研究機構。該機構建立了覆蓋多組學的大型生物信息公共數據庫,包括跨基因組學、轉錄組學、蛋白質組學、化學信息學等,其中歐洲核酸序列數據庫(EuropeanNucleotideArchive,ENA)廣為世界各國的生物醫學科學家所熟知[17]。
(三)日本DNA數據庫中心
日本DNA數據庫中心(DNADataBankofJapan,DDBJ),創立于1984年。DDBJ開發了用于搜索堿基和氨基酸序列的SQmateh工具,并搭建了操作更加簡易的SOAP(simpleobjectaccessprotoco1)服務器,并且與NCBI的GenBank和EMBL-EBI已經建立了緊密的合作關系,實現了數據共享和實時更新。此外,該中心還運營功能基因組學、代謝組學以及人類遺傳和表型等數據庫[18]。
(四)中國國家基因庫生命大數據平臺
中國國家基因庫生命大數據平臺(ChinaNationalGeneBankDataBase,CNGBdb),是深圳國家基因庫的核心功能,是“三庫兩平臺”中生物信息數據庫的對外服務平臺。CNGBdb的主要功能是存儲人類健康及生物多樣性相關的數字化遺傳資源;同時平臺也搭建了生物數據庫及數據分析平臺,實現數據存儲和分析,為生物醫學科研及產業的轉化應用提供大數據的基礎支撐[19]。秉持共有、共為、共享的原則,CNGBdb面向全球科研工作者提供生物大數據共享和應用服務,并有計劃的和美國的NCBI、歐洲的EMBL-EBI、日本的DDBJ展開合作,整合全球公開生命數據,實現數據資源共享,形成融合多研究領域、多數據類型、多分析維度的超大型科研數據系統,集歸檔存儲、知識搜索、分析計算、管理授權于一體,推動中國生物遺傳數據與生命科學數據的規范管理和應用。
三、醫學基因組學大數據和數據庫發展困難與挑戰
在醫學基因組學的數據庫中,有根據其作用、功能、使用場景而進行分類,如全基因組測序、全外顯子組測序等的數據庫;也有根據疾病類別,如地中海貧血癥、唐氏綜合征等疾病而進行分類的數據庫。數據庫的建立是個復雜工程,有明確的開發目標、專業人才、專門的分析工具,需要進行論證、可行性分析等。數據的完整性和準確性、數據的規范化和結構化,合理的數據結構,優化算法的效果,數據之間的正確關聯關系,都與數據庫的質量息息相關[20]。
(一)更多基因與疾病之間的關系還在探索中
基因型和表型之間的關聯度以及基因和更多疾病之間的關系還在不斷探索中。如微生物檢測方向宏基因組測序技術對一些耐藥菌抗生素應用的指導尚有不足,一方面是檢測方法的成本較高對耐藥相關基因覆蓋度有限,靈敏度不高;另一方面是公布的耐藥基因型和表型之間的關聯度有差異。相對單基因遺傳性疾病的發展速度和研究成果,遺傳疾病的應用還有一些發展較慢的研究方向,包括多基因遺傳、表觀基因遺傳和線粒體遺傳等。
(二)數據個體差異問題
無論如何,建立來源于不同族群和不同遺傳背景的數據,都只能是盡最大能力滿足精準的需要。而個體的數據差異具有唯一性,沒有完全的重復。大數據或數據庫是達到和個體的最大公約數,數據量越大準確性、權威性越高。所以,數據的質量和數量的大小決定了在精準醫學領域的話語權。
(三)數據算法和算力有待提高
隨著龐大而繁雜的醫學基因組學數據快速增長,對數據處理的算法和算力提出了更高的要求。海量的數據快速增加并且需跨越不同維度的數據處理,傳統的統計學數據處理算法已經不能夠滿足要求,需要結合人工智能等新算法尋求突破。在保障數據安全的情況下,需要不斷研發針對醫學基因數據處理的新技術,提升算力效率。
(四)高素質專業人才不足
數據分析和解讀對專業人員的要求越來越高。隨著新技術的發展和海量多維度的數據累積,未來需要更多跨多學科的人才支撐行業發展;信息技術、醫學和生命科學結合更加緊密,高校需要加大對多學科復合型人才的培養力度,以應對更多醫療健康領域的復雜問題
(五)政策法規尚未完善
由于網絡具有共享和開放的屬性,醫學基因組學大數據在使用和傳輸的過程中涉及到的數據安全和個人隱私問題不可忽視[21]。因為基因大數據對生物醫學和其他健康領域的發展意義重大,所以數據的安全和隱私保護需要完善的機制、適應發展的政策法規和創新性安全保護的技術手段。
四、醫學基因組學大數據和數據庫發展趨勢
(一)數據庫向專業化發展
醫學基因組學的大數據及數據庫,正推動著精準醫學的發展。隨著數據的精細化分析能力提高和人工智能技術取得突破,數據庫將向更專業、更智能、更普遍的方向發展,根據不同工作或專業建立數據庫。如肺癌數據庫、肝癌數據庫等單個疾病的數據庫,可以查到患者個體疾病的特征、疾病轉歸、以及個性化用藥的選擇等,服務于各專科臨床醫師[22]。
(二)成為醫務工作者的工具
隨著更多專業化的數據庫產生、新技術的快速更新與應用將對生命結構和疾病發生出現新的解讀,甚至影響疾病的診療流程。在疾病的預防、診斷、治療以及個體化用藥等各個方面都需要與時俱進。對醫師的要求不僅需要掌握基本的醫學知識,也需要熟練使用專業的醫學基因組學的數據庫。
(三)標準化和規范化
在大數據時代的背景下,醫學基因組學大數據的發展和使用也將越來越規范化,相應的行業標準和體系共識也在不斷完善中。國家對大數據監管也會越來越精細化,政策法規既要嚴格守住安全底線,也要為大數據和數據庫的健康發展奠基鋪路。
(四)堅持人文倫理的引導
科學技術的快速發展是需要人文倫理框架的引導和規范。倫理框架是為了更好的開展前沿技術的前提。醫學基因組學大數據和數據庫的發展都應建立在善待生命、尊重生命的基礎上才有利于人類的進步與發展[23]。醫學基因組學大數據和數據庫技術需要全流程的安全、規范、有益使用,在合法合規的基礎上,推動科學發現和技術發明就顯得尤其重要[24-26]。
參考文獻
[1]楊煥明.基因組學[M].北京:科學出版社,2016:3-5.
[2]Francis,RichardC.Epigenetics:theultimatemysteryofinheritance[M].NewYork:WWNorton,2011:17-22.
[3]楊煥明.科學與科普——從人類基因組計劃談起[J].科普研究,2017,12(3):5-7,104.
[4]GreenED,WatsonJD,CollinsFS.HumanGenomeProject:Twenty-fiveyearsofbigbiology[J].Nature,2015,526(7571):29-31.
[5]劉相蘭,孫志福.多組學大數據在精準醫學中的地位及應用[J].精準醫學雜志,2020,35(1):1-5,10.
[6]CirilloD,ValenciaA.Bigdataanalyticsforpersonalizedmedicine[J].CurrOpinBiotechnol.2019,58:161-167.
[7]RehmanA,NazS,RazzakI.Leveragingbigdataanalyticsinhealthcareenhancement:trends,challengesandopportunities[J].MultimediaSystems,2022,28:1339-1371.
[8]RashidHU,HussainF,MASOODK.ApplicationofBigDatainHealthCare[J].IJCBS,2018,13:1-5.
[9]劉靜,何思捷,唐龍妹,等.河北省無創產前基因篩查模式的理論和實踐[J].中國婦幼保健,2022,37(22):4105-4110.
[10]WangQ,XiangJ,SunJY,etal.NationwidepopulationgeneticscreeningimprovesoutcomesofnewbornscreeningforhearinglossinChina[J].GenetMed,2019,21(10):2231-2238.
[11]ChenM,ZuoX,TanY,etal.SixaminoacidsofVP1switchalongwithpandemicofCV-A6-associatedHFMDinGuangxi,southernChina,2010-2017[J].JournalofInfection,2019,78(4):323-337.
[12]PennisiE.Genomics1000GenomesProjectgivesnewmapofgeneticdiversity[J].Science,2010,330(6004):574-575.
[13]NayanahS.1000Genomesproject[J].NatureBiotechnology,2008,26(3):256.
[14]InternationalRiceGenomeSequencingProject.Themap-basedsequenceofthericegenome[J].Nature,2005,436(7052):793-800.
[15]文樂樂.地球生物基因組計劃雄心勃勃[N].中國科學報,2022-01-20(001).
[16]SayersEricW,BoltonEvanE,Brister.DatabaseresourcesoftheNationalCenterforBiotechnologyInformationin2023[J].NucleicAcidsRes,2023,51(D1):D29-D38.
[17]KulikovaT,AkhtarR,AldebertP,etal.EMBLNucleotideSequenceDatabasein2006[J].NucleicAcidsRes,2007,35(Databaseissue):D16-D20.
[18]TanizawaY,FujisawaT,KodamaY,etal.DNADataBankofJapan(DDBJ)updatereport2022[J].NucleicAcidsRes,2023,51(D1):D101-D105.
[19]陳鳳珍,游麗金,楊帆,等.CNGBdb:國家基因庫生命大數據平臺[J].遺傳,2020,42(8):799-809.
[20]PramanikPKD,MukhopadhyayM,PALS.Bigdataclassification:applicationsandchallenges[M/OL].Singapore:Springer,2021:53-84.
[21]武奧申,劉小娜,劉昀赫,等.二代基因測序數據管理和大數據平臺在精準醫學中的應用[J].中國生物工程雜志,2019,39(2):101-111.
[22]孫可欣,詹思延,胡永華.醫學大數據在藥物基因組學領域中的應用與發展[J].藥物流行病學雜志,2017,26(1):68-73.
[23]PriceWN,CohenIG.Privacyintheageofmedicalbigdata[J].NatMed,2019,25:37-43.
[24]中華人民共和國網絡安全法[J].中華人民共和國全國人民代表大會常務委員會公報,2016,(6):899-907.
[25]中華人民共和國數據安全法[J].中華人民共和國全國人民代表大會常務委員會公報,2021,(5):951-956.
[26]中華人民共和國個人信息保護法[J].中華人民共和國全國人民代表大會常務委員會公報,2021,(6):1117-1125.
作者:許四虎 李敬宇 潘榮 晉向前 肖棉文 李雪香 單位:深圳市基于基因組學大數據的醫學分析工程技術研究中心