新華社北京12月23日電(記者董瑞豐)我國的生物組學(xué)數(shù)據(jù)產(chǎn)量約占全球的40%,卻沒有國際認(rèn)可的數(shù)據(jù)庫系統(tǒng),不得不把自己寶貴的數(shù)據(jù)資源交給他人代管——這樣的情況即將改變。中國科學(xué)院北京基因組研究所近日宣布,已初步建成生命與健康數(shù)據(jù)匯交與共享平臺(tái),我國科學(xué)家的數(shù)據(jù)能自己做主了。
記者從北京基因組研究所得悉,該所下屬的生命與健康大數(shù)據(jù)中心圍繞國家精準(zhǔn)醫(yī)學(xué)和重要戰(zhàn)略生物資源的組學(xué)數(shù)據(jù),建立了海量生物組學(xué)大數(shù)據(jù)儲(chǔ)存、整合與挖掘分析研究體系。
什么是組學(xué)?大數(shù)據(jù)中心研究員章張介紹,這是將基因、蛋白質(zhì)及代謝物等生物分子以整體為單位進(jìn)行系統(tǒng)性的研究,基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝物組學(xué)等相應(yīng)產(chǎn)生。相較于此前以個(gè)體為單位的研究,組學(xué)最主要的特征就是大數(shù)據(jù)。
隨著測序技術(shù)的發(fā)展,生命科學(xué)領(lǐng)域進(jìn)入組學(xué)時(shí)代,海量的數(shù)據(jù)產(chǎn)出成為常態(tài)。搭建組學(xué)數(shù)據(jù)庫,實(shí)現(xiàn)海量信息的存儲(chǔ)、整合及共享成為一項(xiàng)重要任務(wù)。此前,在國際上被認(rèn)可的生物組學(xué)數(shù)據(jù)中心主要有美國的NCBI、歐洲的EBI及日本的DDBJ。要想在國際期刊發(fā)表論文,需要先將自己的原始數(shù)據(jù)提交到這三個(gè)數(shù)據(jù)庫中。
章張說,這種情況看似有利于國際科學(xué)數(shù)據(jù)的資源整合與共享,實(shí)際上對(duì)我國的科學(xué)研究發(fā)展帶來了很大影響,不僅數(shù)據(jù)提交時(shí)效率低,在數(shù)據(jù)下載時(shí)更有各種限制。
大數(shù)據(jù)中心高級(jí)工程師趙文明告訴記者,《美國國家科學(xué)院院刊》《細(xì)胞研究》等多個(gè)國際期刊已經(jīng)認(rèn)可把數(shù)據(jù)提交到北京基因組研究所生命與健康大數(shù)據(jù)中心,標(biāo)志著我國建設(shè)綜合性基因組數(shù)據(jù)資源獲得國際同行認(rèn)可。
據(jù)了解,目前的數(shù)據(jù)資源系統(tǒng)包括高通量測序的原始組學(xué)數(shù)據(jù)歸檔庫,圍繞國家重要戰(zhàn)略生物資源的基因組數(shù)據(jù)庫,基于測序數(shù)據(jù)的基因表達(dá)數(shù)據(jù)庫,基于中國人群以及國家重要物種群體的基因組變異數(shù)據(jù)庫,基于全基因組DNA甲基化圖譜的表觀基因組數(shù)據(jù)庫,以及基于大眾審編的生命科學(xué)維基知識(shí)庫。
該研究主要在中科院戰(zhàn)略先導(dǎo)專項(xiàng)和國際大科學(xué)計(jì)劃的支持下完成。