自基因組學(xué)技術(shù)問(wèn)世以來(lái),測(cè)序與分析一直是基因組學(xué)技術(shù)中最主要的兩個(gè)環(huán)節(jié)。實(shí)際上,與繁重的測(cè)序工作相比,基因組的分析也同樣復(fù)雜,需要耗費(fèi)大量時(shí)間。
然而,隨著近年來(lái)基因組學(xué)技術(shù)發(fā)展突飛猛進(jìn),這種狀況正在逐步改變。
日前,中國(guó)農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所阮玨團(tuán)隊(duì)在《自然·方法學(xué)》上發(fā)表了第三代測(cè)序數(shù)據(jù)組裝算法Wtdbg,極大提高三代測(cè)序數(shù)據(jù)的分析效率,與今年4月發(fā)表在《自然·生物技術(shù)》上的Flye算法相比,分析速度提升了5倍,并首次將測(cè)序數(shù)據(jù)分析時(shí)間降低到少于測(cè)序數(shù)據(jù)產(chǎn)出時(shí)間。
基因組的測(cè)序與分析
DNA測(cè)序技術(shù)成熟于上世紀(jì)70年代中后期,1990年人類(lèi)基因組計(jì)劃的提出,將基因組測(cè)序技術(shù)逐步由實(shí)驗(yàn)室邁入商業(yè)化階段;到2004年人類(lèi)基因組計(jì)劃完成時(shí),第二代基因組測(cè)序技術(shù)已經(jīng)相對(duì)成熟,開(kāi)始大規(guī)模商業(yè)化應(yīng)用;2013年,單分子等第三代測(cè)序技術(shù)出現(xiàn),也預(yù)示著測(cè)序技術(shù)應(yīng)用更廣,測(cè)序的成本越低。
“如今,完成一個(gè)人的全基因組測(cè)序是普通家庭都可以負(fù)擔(dān)起費(fèi)用的‘平常’事情了。以三代測(cè)序?yàn)槔瓿蓚€(gè)人全基因組測(cè)序僅需1天時(shí)間、費(fèi)用低于5萬(wàn)元。”論文作者、中國(guó)農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所研究員阮玨告訴經(jīng)濟(jì)日?qǐng)?bào)記者。
在測(cè)序技術(shù)日新月異的同時(shí),分析技術(shù)也在共同成長(zhǎng)。以人類(lèi)基因組組裝為例,在2014年需要消耗50萬(wàn)個(gè)CPU小時(shí),且只能在超大計(jì)算機(jī)集群上進(jìn)行。因而,以全基因組組裝方式對(duì)群體進(jìn)行測(cè)序分析已經(jīng)成為生物醫(yī)學(xué)研究的趨勢(shì)。
關(guān)鍵鑰匙:模糊布魯因圖
Wtdbg算法的開(kāi)發(fā)得益于一個(gè)新的組裝圖理論——模糊布魯因圖的提出。模糊布魯因圖借鑒了德布魯因圖的思想,將測(cè)序數(shù)據(jù)切分為固定長(zhǎng)度的短串,再?gòu)亩檀畼?gòu)建出的圖上恢復(fù)出全基因組序列。
上世紀(jì)90年代,德布魯因圖被引入基因組組裝領(lǐng)域,其以速度優(yōu)勢(shì)常用于第二代測(cè)序數(shù)據(jù)的組裝分析,但因測(cè)序噪音極高,從未成功應(yīng)用在第三代測(cè)序數(shù)據(jù)。
2013年起,阮玨和美國(guó)哈佛醫(yī)學(xué)院的博士李恒在德布魯因圖基礎(chǔ)上,設(shè)計(jì)出一個(gè)新的組裝圖理論——模糊布魯因圖。通過(guò)重新對(duì)短串進(jìn)行定義,它能夠容忍高噪音數(shù)據(jù),并隨后對(duì)生成組裝圖和恢復(fù)基因組序列做了大量相應(yīng)的重構(gòu),使其兼具高效率和高容錯(cuò)的優(yōu)點(diǎn)。
不斷進(jìn)化的新算法
近年來(lái),生物信息學(xué)領(lǐng)域的科學(xué)家們致力于改變這種數(shù)據(jù)產(chǎn)出速度遠(yuǎn)高于數(shù)據(jù)分析速度的尷尬狀況,不斷開(kāi)發(fā)出更高效的組裝分析算法。
2013年,阮玨與李恒合作開(kāi)始了測(cè)序數(shù)據(jù)分析方法如組裝算法的開(kāi)發(fā),力求推動(dòng)測(cè)序數(shù)據(jù)的分析速度更快、分析質(zhì)量更高。2016年,他們的研究結(jié)束,并將研究成果Wtdbg對(duì)所有人免費(fèi)開(kāi)放使用。3年來(lái),這項(xiàng)成果不僅被幾十篇學(xué)術(shù)論文引用,還被國(guó)內(nèi)多家基因測(cè)序分析公司作為主要組裝分析工具,并且在2019年世界大學(xué)生超算競(jìng)賽中作為性能測(cè)試賽題。
“我們收到大量反饋,不僅有助修訂算法軟件中的漏洞,還帶來(lái)了新想法和思路。算法需要不斷在實(shí)踐中完善,只有通過(guò)更多實(shí)際應(yīng)用,我們才能更有效調(diào)整改進(jìn)這套算法。目前的算法與2016年相比已經(jīng)是2.0版本,而更高版本的算法于今年初也開(kāi)始了研究。”阮玨告訴記者。
關(guān)鍵詞:
責(zé)任編輯:Rex_01