針對(duì)第三代基因測(cè)序儀硬件錯(cuò)誤率高達(dá)15%—40%的現(xiàn)實(shí),該團(tuán)隊(duì)研發(fā)出了一套“線性復(fù)雜度”(復(fù)雜性最低)的算法,Sparc軟件即基于該新算法完成。
綜合測(cè)試顯示:采用測(cè)序深度僅為30x的三代基因測(cè)序數(shù)據(jù),Sparc取得組裝共識(shí)(Consensus)時(shí)錯(cuò)誤率低于0.5%;同時(shí)與目前最優(yōu)秀的同類軟件比,Sparc可節(jié)省計(jì)算時(shí)間和內(nèi)存達(dá)80%。這一重要突破為推進(jìn)基因測(cè)序技術(shù)邁向三代技術(shù)的產(chǎn)業(yè)升級(jí)提供了又一關(guān)鍵軟件技術(shù)。
Sparc是馬占山研究員2011年回國(guó)后該團(tuán)隊(duì)在基因測(cè)序領(lǐng)域所研發(fā)公布的第三款重要軟件。2011-2012年發(fā)布的SparseAssembler-I和II系為第二代測(cè)序技術(shù)所設(shè)計(jì)。2014年發(fā)布的DBG2OLC為新興的三代測(cè)序技術(shù)(單分子測(cè)序)設(shè)計(jì)。此兩款軟件目前在各自所處的二代和三代測(cè)序技術(shù)領(lǐng)域其性能仍處于國(guó)際先進(jìn)水平。此次發(fā)布的Sparc軟件旨在解決三代測(cè)序超高錯(cuò)誤率的硬件技術(shù)難題。
事實(shí)上,三代測(cè)序的錯(cuò)誤率在15%-40%,而已經(jīng)占領(lǐng)測(cè)序市場(chǎng)主流近10年的二代測(cè)序技術(shù)其錯(cuò)誤率則低于1%。正是由于這一測(cè)序錯(cuò)誤率的巨大差異,以及二代測(cè)序儀制造商的市場(chǎng)份額優(yōu)勢(shì),使得三代測(cè)序技術(shù)目前遠(yuǎn)未發(fā)揮出其獨(dú)特的科學(xué)和技術(shù)優(yōu)勢(shì)。Sparc軟件能夠有效彌補(bǔ)三代測(cè)序技術(shù)硬件超高錯(cuò)誤率這一“硬傷”,應(yīng)該能夠大幅度提高三代技術(shù)的市場(chǎng)競(jìng)爭(zhēng)能力,為迎接基因測(cè)序產(chǎn)業(yè)升級(jí)奠定優(yōu)良的技術(shù)基礎(chǔ)。
另外,Sparc算法應(yīng)用范圍不止于基因組裝技術(shù);事實(shí)上,基因組學(xué)中諸多涉及糾錯(cuò)(Error-correction)和變異檢測(cè)(Variant discovery)的技術(shù)都可受益于Sparc算法的線性復(fù)雜度優(yōu)勢(shì)。
基因測(cè)序技術(shù)使得人類在本世紀(jì)初完成了對(duì)自身遺傳密碼藍(lán)本的解讀,其劃時(shí)代意義可能不亞于阿波羅登月計(jì)劃。而測(cè)序技術(shù)在人類基因組計(jì)劃中的地位則類似于運(yùn)載火箭技術(shù)在探月工程中所起的作用。測(cè)序技術(shù)在經(jīng)過30余年的研發(fā)后目前處于第二代與第三代交替的前夜。
Sparc團(tuán)隊(duì)歷經(jīng)五年的努力,所研發(fā)的三款軟件SparseAssembler, DBG2OLC, Sparc的性能目前均處于國(guó)際先進(jìn)或領(lǐng)先行列。而DBG2OLC和Sparc所開發(fā)的算法解決了最新三代技術(shù)最為復(fù)雜的關(guān)鍵技術(shù)難題;在測(cè)序硬件技術(shù)出現(xiàn)更新一代技術(shù)之前,這一領(lǐng)域軟件的發(fā)展已經(jīng)超越了硬件技術(shù)的需求。
特別是最新Sparc算法的“線性復(fù)雜度”意味著該問題最高效率級(jí)別的算法已經(jīng)找到,未來要想取得類似DBG2OLC或SparseAssembler所取得的千倍、或數(shù)十倍計(jì)算效率的改進(jìn)已經(jīng)不太可能。
為此,Sparc合作團(tuán)隊(duì)已經(jīng)將軟件研發(fā)轉(zhuǎn)向人體微生物菌群(包括腸道菌群)分析、以及人工智能技術(shù)(特別是“深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)”)。其中“菌群宏基因醫(yī)學(xué)生態(tài)與網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)”包含了昆明動(dòng)物研究所“計(jì)算生物與醫(yī)學(xué)生態(tài)學(xué)實(shí)驗(yàn)室”自主研發(fā)的近20項(xiàng)分析技術(shù),諸多技術(shù)的專利申請(qǐng)正在進(jìn)行中;軟件系統(tǒng)預(yù)計(jì)2017-2018年間能夠正式對(duì)外公布。
Sparc研發(fā)獲得了中科院、遺傳資源與進(jìn)化國(guó)家重點(diǎn)實(shí)驗(yàn)室、國(guó)家自然科學(xué)基金、以及云南省高端科技人才、海外高層次人才、云嶺產(chǎn)業(yè)領(lǐng)軍人才以及創(chuàng)新團(tuán)隊(duì)等項(xiàng)目的支持。由于該研究屬于計(jì)算機(jī)科學(xué)、數(shù)學(xué)和生物學(xué)的交叉領(lǐng)域,因此創(chuàng)新團(tuán)隊(duì)成員間的跨界合作自然起到了關(guān)鍵作用。