DNA基因測(cè)序技術(shù)從上世紀(jì)70年代起,歷經(jīng)三代技術(shù)后,目前已發(fā)展成為一項(xiàng)相對(duì)成熟的生物產(chǎn)業(yè)。測(cè)序技術(shù)的應(yīng)用也擴(kuò)展到了生物、醫(yī)學(xué)、制藥、健康、農(nóng)林、園藝、花卉、環(huán)保、法醫(yī)等許多領(lǐng)域,并成為一項(xiàng)與我們衣食住行密切相關(guān)的高技術(shù)產(chǎn)業(yè)。據(jù)最新統(tǒng)計(jì),2012年全球基因測(cè)序市場(chǎng)的產(chǎn)值已超過百億,按最近幾年增長(zhǎng)速度,預(yù)計(jì)2017年市場(chǎng)產(chǎn)值將加倍。在測(cè)序產(chǎn)業(yè)占世界市場(chǎng)份額第一的正是總部設(shè)在深圳的我國(guó)華大基因研究院。因此可以說,基因測(cè)序在我國(guó)生物科技領(lǐng)域具有非常重要的戰(zhàn)略意義。
“第三代測(cè)序技術(shù)”的研發(fā)已有近十年時(shí)間,商業(yè)化的第三代測(cè)序儀上市也有三年。但目前測(cè)序市場(chǎng)仍為二代測(cè)序技術(shù)所壟斷(我國(guó)頂級(jí)科研機(jī)構(gòu)和商業(yè)公司所擁有的三代測(cè)序儀可能僅有數(shù)十臺(tái))。三代測(cè)序技術(shù)產(chǎn)生的讀段更長(zhǎng),測(cè)序成本更低,其取代二代技術(shù)是測(cè)序技術(shù)發(fā)展的必然趨勢(shì)。然而由于三代測(cè)序技術(shù)錯(cuò)誤率高,現(xiàn)有的組裝軟件多是對(duì)第二代測(cè)序數(shù)據(jù)組裝軟件的“修補(bǔ)”而并沒有充分考慮到三代測(cè)序技術(shù)的數(shù)據(jù)特征。事實(shí)上,基因組裝算法問題被廣泛認(rèn)為是計(jì)算生物學(xué)和生物信息學(xué)領(lǐng)域最復(fù)雜的計(jì)算難題之一,也是目前阻礙基因測(cè)序產(chǎn)業(yè)從二代技術(shù)升級(jí)到三代技術(shù)最大的技術(shù)障礙。
最近,美國(guó)馬里蘭大學(xué)ChengxiYe,JamesA.Yorke,AlekseyZimin等與中國(guó)科學(xué)院昆明動(dòng)物研究所遺傳資源與進(jìn)化國(guó)家重點(diǎn)實(shí)驗(yàn)室馬占山研究員在這一領(lǐng)域的合作研發(fā)取得新突破。該研究團(tuán)隊(duì)在一篇題為DBG2OLC:EfficientAssemblyofLargeGenomesUsingtheCompressedOverlapGraph的文章中引入了一種新的針對(duì)三代測(cè)序技術(shù)的基因組裝算法,并開發(fā)出一款軟件(DBG2OLC)。另外作者(Yeetal.2011,2012)于2011年發(fā)布的SparseAssembler曾經(jīng)比當(dāng)時(shí)主流的基因組裝軟件節(jié)省90%的內(nèi)存空間,而其計(jì)算時(shí)間和組裝質(zhì)量卻毫不遜色。著名的SOAPdenovo的升級(jí)版,也是目前最廣泛應(yīng)用的基因組裝軟件SOAPdenovo2即采用了SparseAssembler算法。
多組測(cè)序數(shù)據(jù)的測(cè)試表明:與目前用于三代測(cè)序最優(yōu)秀的一些基因組裝軟件(例如PacBio2CA,HGAP,ECTools)相比,DBG2OLC在計(jì)算時(shí)間和內(nèi)存空間的消耗通常僅為其它算法的1/10。理論上,DBG2OLC在時(shí)間和空間的使用上相對(duì)其它同類軟件可減少達(dá)1000倍。例如組裝關(guān)鍵步驟之一的“兩兩比對(duì)”計(jì)算,采用一組由PacBio提供的人類基因組數(shù)據(jù),DBG2OLC使用一臺(tái)普通PC僅用了6小時(shí)完成。而同樣計(jì)算,PacificBiosciences所報(bào)道的時(shí)間為405000CPU小時(shí),而且是在Google的計(jì)算集群上完成。因此,DBG2OLC算法基本解決了目前三代測(cè)序技術(shù)所面臨的計(jì)算技術(shù)挑戰(zhàn),從而為推進(jìn)基因測(cè)序技術(shù)的產(chǎn)業(yè)升級(jí)奠定了良好的技術(shù)基礎(chǔ)。