在2016年的瑞士達沃斯世界經(jīng)濟論壇期間,美國副總統(tǒng)Joe Biden詢問了阻礙研究人員和臨床醫(yī)生在抗擊癌癥過程中的突破的障礙。在眾多重要話題中,最重要的是大數(shù)據(jù),確切的說,是大數(shù)據(jù)的收集、分析和應用。
大數(shù)據(jù)的“大”指的是積累的數(shù)據(jù)集的量很大,通過合理地分析這些數(shù)據(jù)可以得到很多的有效信息。另一方面,在實踐中對大數(shù)據(jù)的分析可以得到變化趨勢、發(fā)現(xiàn)關聯(lián)以及確認模式。
一些研究人員稱,大數(shù)據(jù)很有效,因為它們攜帶了豐富的信息。大量的樣本可以揭示出一些未被注意到的細節(jié)。然而還有的研究人員認為大數(shù)據(jù)技術所需要的不僅僅是非常多的數(shù)據(jù)。美國圣猶大兒童研究醫(yī)院的Keith Perry就是持后者意見的人。
Perry說:“大數(shù)據(jù)豈止于‘大’?還需要具有另外三層意思:數(shù)據(jù)類型的多樣性,數(shù)據(jù)生成的速度,大量數(shù)據(jù)整合的程度。我們現(xiàn)在擁有的很多數(shù)據(jù)并沒有互相連接的接口,因為它們在不同的部門產(chǎn)生?!?/P>
另一個持此觀點的人是Narayan Desai博士,他是愛立信公司的計算機科學家,他曾說過:“基因組學將要解決的基本問題是應該生成多少數(shù)據(jù)。數(shù)據(jù)收集和分析處理的能力如何更加有效,應該好好研究?!?/P>
影響一:隱藏的弱點
最近,一些科學家呼吁更加專注和創(chuàng)造性地利用現(xiàn)存數(shù)據(jù)來進行臨床實踐。比如美國加州大學的細胞和分子藥物學教授Nevann Krogan說,基因組學使我們離治愈癌癥更近了一大步,這種進步超過很多遺傳學家的想象。
Krogan博士說:“基因測序人員說只要有更多的錢進行更多的測序就可以使問題的答案更加明朗。但我不認為這樣。我認為我們已經(jīng)達到了可提取信息的飽和點?!?/P>
Krogan博士認為,盡管數(shù)據(jù)的積累量在變大,但是癌癥治療并沒有取得太多突破。這是因為新生成的數(shù)據(jù)只是用來描述癌癥驚人的多樣性,即使是單一腫瘤也會包含成千上萬種基因突變。
Krogan和他的同事認為,研究人員不應該只專注于收集大量數(shù)據(jù),而應該仔細研究已有數(shù)據(jù)中隱藏的聯(lián)系。Krogan在2015年發(fā)起了癌細胞地圖計劃(Cancer Cell Map Initiative ,CCMI)。
CCMI致力于系統(tǒng)地詳細描述癌癥基因之間的復雜關系,以及它們在不同的疾病和健康狀況之下的區(qū)別,并制作出癌細胞中正?;?、突變基因以及蛋白質(zhì)的“連線圖”。
影響二:腫瘤樣本
腫瘤細胞地圖項目(CCMI)將加利福尼亞大學圣迭戈分校(UCSD)的生物醫(yī)學大數(shù)據(jù)提取技術和舊金山加州大學(UCSF)分析細胞結構和功能的先進技術相結合。UCSD的Trey Ideker博士說:“我們已經(jīng)有了基因組信息?,F(xiàn)在的瓶頸是如何翻譯腫瘤基因組?!?/P>
在2015年的基因組大會上,Ideker博士指出,正在進行的癌癥DNA測序已經(jīng)完成了20000例基因組。但是,在沒有關于基因網(wǎng)絡知識的前提下分析這些癌癥基因組是非常困難的,因為在基因層面上,沒有兩個癌癥患者的腫瘤是一樣的。他認為生物信息學可以解決這個問題。
Ideker于2013年9月發(fā)表在《Nature Methods》上的一篇論文稱,癌癥基因組圖譜(TCGA)和國際癌癥基因組聯(lián)盟(ICGC)已經(jīng)開始系統(tǒng)地為上萬種腫瘤進行歸檔,包括信使核糖核酸(mRNA)和微小核糖核酸(microRNA)的表達,DNA拷貝數(shù)量和甲基化,DNA序列。文章作者稱:“現(xiàn)在急需可以將基因組規(guī)模的分子信息整合并翻譯的信息技術,以更深入的洞察驅動癌癥發(fā)展的分子過程。這種技術對臨床來說也很急需?!?/P>
影響三:子網(wǎng)絡分析
為了滿足對這些綜合信息技術的需求,UCSD的研究團隊整合了對多組可以編碼蛋白質(zhì)的基因的基因表達測定,這些蛋白質(zhì)會在蛋白質(zhì)子網(wǎng)絡或者通路數(shù)據(jù)集中相互作用。該檔案并沒有把單獨的基因和蛋白質(zhì)列出來,而是將基因和蛋白質(zhì)子網(wǎng)絡集合地表達出來。
研究人員稱,這些子網(wǎng)絡可以確認不同患者的基因表達的不同。子網(wǎng)絡分析與其他傳統(tǒng)的分析不同,它可以解讀出基因表達的不同。
2007年,Ideker博士發(fā)表在《Molecular Systems Biology》上的一篇論文稱,盡管攜帶乳腺癌突變的基因無法通過差異表達分析檢測出來,但是它們在蛋白質(zhì)網(wǎng)絡中非常重要,與很多不同的基因相互作用。
對于大部分有中等乳腺癌風險的患者來說,傳統(tǒng)因素并不足以預測,大約有70–80%淋巴結陰性患者要接受不必要的輔助化療。Ideker認為,現(xiàn)在的很多危險因素其實只是次要的臨床表現(xiàn),而不是主要的患病機制。
現(xiàn)在的挑戰(zhàn)是與疾病更加相關的預后指標,更加精確地預測病人的新陳代謝風險。
影響四:預后意義
研究人員最近正在收集更多的證據(jù)以證明基因網(wǎng)絡分析可以為預后提供信息。比如UCSD的Chang博士于2012年在《BLOOD》上發(fā)表的一篇論文認為,基因網(wǎng)絡分析可以預測慢性淋巴細胞白血(CLL)病患者的結果。
特別的,研究人員們使用基因子網(wǎng)絡的基因表達檔案分析法區(qū)別出了不同病人的CLL風險。CLL患者的臨床病程各不相同。一些病人在很多年后仍然沒有癥狀,而一些病人很快就會出現(xiàn)嚴重的疾病并需要治療。
因為標準療法會涉及到毒性,準確的預測很重要,因為目前的治療建議是,在患者表現(xiàn)出明確癥狀之前不能使用這種標準療法。
一些研究報道稱,幾組基因可以用于CLL已知預后因素替代指標,比如IGHV突變狀態(tài)。
UCSD研究人員稱,他們從130名CLL患者中識別出38個預后子網(wǎng)絡,這些子網(wǎng)絡可以預測疾病進展的風險。此外,這些子網(wǎng)絡標記可以產(chǎn)生更精確的預測。
研究人員得出結論,他們的分析對理解癌癥進貨和開發(fā)新型治療方案具有指示意義。這些指示來源于生物信息技術,該技術使大數(shù)據(jù)變得有意義,并且可以促進更多的發(fā)現(xiàn)。