來(lái)源: 騰訊網(wǎng) 時(shí)間:2021-12-08
DNA甲基化是基因轉(zhuǎn)錄調(diào)控中一個(gè)基本的表觀遺傳修飾過(guò)程。一些DNA修飾,例如5-甲基胞嘧啶(5mC)及其氧化衍生物,即5-羥甲基胞嘧啶(5hmC)、5-甲?;奏ぃ?fC)和5-羧基胞嘧啶(5caC)等廣泛分布在基因組中,在基因組印記、染色質(zhì)結(jié)構(gòu)調(diào)節(jié)、轉(zhuǎn)座子失活、干細(xì)胞多能性和分化、炎癥及轉(zhuǎn)錄抑制調(diào)節(jié)中發(fā)揮著重要作用。通常,DNA甲基化檢測(cè)依賴(lài)于亞硫酸氫鹽轉(zhuǎn)化(可損害DNA)和NGS(僅檢測(cè)短期甲基化模式)相結(jié)合的方式。
Pacific Biosciences(PacBio)的單分子實(shí)時(shí)(SMRT)測(cè)序、Oxford Nanopore Technologies(ONT)的納米孔測(cè)序第三代測(cè)序技術(shù)已經(jīng)克服了讀長(zhǎng)的限制,實(shí)現(xiàn)了全基因組水平的超長(zhǎng)讀取、單堿基檢測(cè)。SMRT測(cè)序可以基于聚合酶動(dòng)力學(xué)在250x覆蓋率下檢測(cè)5mC修飾,但該方法無(wú)法在單分子分辨率下直接檢測(cè)5mC。納米孔測(cè)序能夠通過(guò)未修飾堿基和修飾堿基的納米孔reads產(chǎn)生的電流強(qiáng)度差異來(lái)檢測(cè)DNA修飾,實(shí)現(xiàn)快速、長(zhǎng)讀長(zhǎng)測(cè)序和單堿基單分子靈敏度。目前,研究人員已開(kāi)發(fā)出越來(lái)越多的分析工具從納米孔測(cè)序reads中檢測(cè)DNA甲基化,但在人類(lèi)全表觀基因組范圍內(nèi),納米孔甲基化測(cè)序工具仍缺乏公開(kāi)的指南和系統(tǒng)評(píng)估。
為填補(bǔ)這一空白,美國(guó)Jackson實(shí)驗(yàn)室李盛聯(lián)合團(tuán)隊(duì)建立了第一個(gè)用于人類(lèi)全表觀基因組規(guī)模的納米孔測(cè)序DNA 5mC檢測(cè)的系統(tǒng)基準(zhǔn),評(píng)估了CpG甲基化預(yù)測(cè)在不同基因組環(huán)境、CpG位點(diǎn)覆蓋范圍和每個(gè)工具消耗的計(jì)算資源上的每次讀取和每個(gè)位點(diǎn)的性能。研究團(tuán)隊(duì)提供了一個(gè)在線DNA甲基化數(shù)據(jù)庫(kù)(https://nanome.jax.org),以顯示通過(guò)納米孔測(cè)序和亞硫酸氫鹽測(cè)序(BS-seq)數(shù)據(jù)在不同基因組環(huán)境中檢測(cè)到的DNA甲基化水平。該研究已發(fā)表在Genome Biology上,文章題為“DNA methylation-calling tools for Oxford Nanopore sequencing: a survey and human epigenome-wide evaluation”。
文章發(fā)表于Genome Biology期刊
目前,已有12種分析工具來(lái)利用使用ONT測(cè)序直接檢測(cè)DNA甲基化,其中10種工具與R9.4系列流動(dòng)槽兼容,9種工具可以預(yù)測(cè)5mC。研究人員比較了在不同CpG環(huán)境下針對(duì)5mCs的7種最先進(jìn)甲基化識(shí)別工具的性能,這7種工具都與ONT流動(dòng)槽版本(R9.4和R9.4.1)兼容:Nanopolish、Megalodon、DeepSignal、Guppy、Tombo、 DeepMod和METEORE。其中,Tombo是基于統(tǒng)計(jì),其他6個(gè)工具是基于模型(圖1)。研究人員選擇Megalodon和DeepSignal結(jié)合的METEORE RF模型,為基準(zhǔn)測(cè)試開(kāi)發(fā)了三步標(biāo)準(zhǔn)化工作流程:堿基判讀技術(shù)和質(zhì)量控制、基因組組裝和打磨、甲基化識(shí)別和評(píng)估。利用四個(gè)人類(lèi)納米孔測(cè)序數(shù)據(jù)集(NA19240、NA12878、K562、APL)進(jìn)行基準(zhǔn)測(cè)試。
圖1.納米孔測(cè)序5mC的工作流程 來(lái)源:Genome Biology
納米孔測(cè)序可以檢測(cè)單個(gè)分子的胞嘧啶甲基化狀態(tài)。在單例和非單例中,研究團(tuán)隊(duì)評(píng)估了7種DNA甲基化檢測(cè)工具在單分子、單堿基分辨率上的單讀長(zhǎng)性能。將BS-seq作為基準(zhǔn),比較完全甲基化或完全未甲基化CpG上的甲基化檢測(cè)性能。結(jié)果顯示,Nanopolish、Megalodon、DeepSignal和Guppy在F1-score、準(zhǔn)確率和AUC指標(biāo)上都優(yōu)于其他三種工具。
不同的基因組背景顯示出不同的CpG密度和DNA甲基化水平,研究人員從啟動(dòng)子、外顯子、內(nèi)含子、基因間區(qū)域、CpG島、不同CG密度的區(qū)域以及不同類(lèi)型的重復(fù)區(qū)域方面評(píng)估了與生物學(xué)相關(guān)的基因組背景對(duì)5mC預(yù)測(cè)的影響。結(jié)果顯示,所有7個(gè)工具在基因間區(qū)域的F1得分均低于其他任何基因區(qū)域或CpG島;在所有CG密度區(qū)域,尤其是低CG密度區(qū)域,Tombo和METEORE都存在預(yù)測(cè)精度低的問(wèn)題。與其他工具相比,Nanopolish、Megalodon、DeepSignal和Guppy在所有數(shù)據(jù)集、基因和基因間區(qū)域、重復(fù)區(qū)域和不同CG密度區(qū)域的CpG位點(diǎn)上始終表現(xiàn)出更高的F1總分,因此,這四種工具在全基因組5mC預(yù)測(cè)的單讀長(zhǎng)性能上優(yōu)于其它工具(圖2)。
圖2. 5mC預(yù)測(cè)在不同基因組背景下的單讀長(zhǎng)性能。來(lái)源:Genome Biology
為評(píng)估這7種工具在全基因組范圍甲基化水平CpG位點(diǎn)上的性能,研究人員評(píng)估了單堿基分辨率下,納米孔測(cè)序和相應(yīng)BS-seq數(shù)據(jù)的DNA甲基化百分比之間的Pearson相關(guān)系數(shù)。結(jié)果顯示,Nanopolish、Megalodon、DeepSignal和Guppy預(yù)測(cè)的5mC百分比與對(duì)應(yīng)的BS-seq數(shù)據(jù)集高度相關(guān),DNA甲基化均呈現(xiàn)雙峰分布(圖3)。在NA19240數(shù)據(jù)中,BS-seq與DeepMod之間的Pearson相關(guān)性接近于零,證實(shí)DeepMod無(wú)法有效預(yù)測(cè)人類(lèi)全基因組水平上的甲基化分布,而Nanopolish、Megalodon、DeepSignal和Guppy在NA19240數(shù)據(jù)的所有基因和基因間區(qū)域、CG密度區(qū)域和重復(fù)區(qū)域的相關(guān)系數(shù)始終最高。此外,研究發(fā)現(xiàn)納米孔測(cè)序的CpG甲基化工具之間的相關(guān)性大于BS-seq與納米孔測(cè)序數(shù)據(jù)之間的相關(guān)性,這主要是因?yàn)橥ㄟ^(guò)納米孔測(cè)序可區(qū)分5hmC和5mC,實(shí)現(xiàn)5mC的精確檢測(cè),但BS-seq無(wú)法區(qū)分。
進(jìn)一步地,研究人員評(píng)估了CpG甲基化百分比與到轉(zhuǎn)錄起始點(diǎn)或CTCF結(jié)合峰中心的距離之間的關(guān)系。與預(yù)期一致,轉(zhuǎn)錄起始點(diǎn)附近的CpG位點(diǎn)趨向于未甲基化,甲基化水平隨著與轉(zhuǎn)錄起始點(diǎn)距離的增加而增加;DNA甲基化百分比在CTCF結(jié)合峰的中心最低??傮w而言,Nanopolish、Megalodon、DeepSignal和Guppy與BS-seq的相關(guān)性較高,在全基因組水平上密切跟蹤了BS-seq的甲基化模式。
圖3. 5mC預(yù)測(cè)的單堿基性能。來(lái)源:Genome Biology
雖然在堿基識(shí)別和校準(zhǔn)步驟之后所有工具的CpG位點(diǎn)都相同,但預(yù)測(cè)的CpG位點(diǎn)數(shù)量不同,因?yàn)槊總€(gè)甲基化識(shí)別工具都有自己的標(biāo)準(zhǔn)來(lái)進(jìn)行可靠的甲基化預(yù)測(cè)。研究結(jié)果顯示,與其他5個(gè)工具相比,Megalodon和DeepSignal在所有四個(gè)數(shù)據(jù)集上預(yù)測(cè)的CpG位點(diǎn)數(shù)量最多。通過(guò)分析每個(gè)工具的運(yùn)行時(shí)間和峰值內(nèi)存使用情況,發(fā)現(xiàn)Guppy和Nanopolish需要的CPU時(shí)間最少,峰值內(nèi)存使用量也最低;DeepSignal和Tombo占用的CPU時(shí)間較多,但峰值內(nèi)存較低;Megalodon占用的峰值內(nèi)存較大,但CPU時(shí)間較短;METEORE和DeepMod都需要最高峰值內(nèi)存和CPU運(yùn)行時(shí)間。
基于上述結(jié)果,研究人員對(duì)比了7個(gè)工具各自的優(yōu)缺點(diǎn)(圖4):
第一,甲基化識(shí)別工具的選擇會(huì)嚴(yán)重影響不同基因組區(qū)域的F1分?jǐn)?shù)、準(zhǔn)確性和AUC分?jǐn)?shù)的水平??傮w而言,表現(xiàn)最好的是Megalodon、Nanopolish、DeepSignal和Guppy。
第二,在DNA甲基化模式不一致區(qū)域、基因間區(qū)域、低CG密度區(qū)域和重復(fù)區(qū)域(即 SINE 和 LTR)檢測(cè)5mCs顯示所有工具都有改進(jìn)的空間。
第三,Guppy和Nanopolish的內(nèi)存使用率最低,對(duì)于計(jì)算資源有限的用戶(hù),推薦使用Guppy和Nanopolish進(jìn)行甲基化分析;對(duì)于有權(quán)訪問(wèn)HPC資源或云計(jì)算資源預(yù)算較大的用戶(hù),Megalodon是最佳選擇,考慮到其在更具挑戰(zhàn)性的領(lǐng)域(包括重復(fù)區(qū)域和不一致的非單例)的性能,與Nanopolish和Guppy相比,它可以預(yù)測(cè)更多的CpG位點(diǎn)。
在不同基因組背景下對(duì)DNA甲基化的穩(wěn)健預(yù)測(cè)將有助于我們更好地理解許多生物過(guò)程背后基因調(diào)控的表觀遺傳機(jī)制。
圖4.7種工具在不同評(píng)價(jià)體系中的表現(xiàn)。來(lái)源:Genome Biology
綜上所述,該研究發(fā)布了納米孔測(cè)序中檢測(cè)哺乳動(dòng)物全基因組DNA修飾算法的第一個(gè)系統(tǒng)基準(zhǔn),為利用納米孔測(cè)序進(jìn)行基因組表觀遺傳修飾檢測(cè)提供了分析工具評(píng)估的研究思路,并為跨平臺(tái)的標(biāo)準(zhǔn)化提供了廣泛基礎(chǔ)。
參考文獻(xiàn):
Liu Y, Rosikiewicz W, Pan Z, Jillette N, Wang P, Taghbalout A, Foox J, Mason C, Carroll M, Cheng A, Li S. DNA methylation-calling tools for Oxford Nanopore sequencing: a survey and human epigenome-wide evaluation. Genome Biol. 2021 Oct 18;22(1):295. doi: 10.1186/s13059-021-02510-z. PMID: 34663425; PMCID: PMC8524990.
· END ·
【來(lái)源:騰訊網(wǎng)】
聲明:轉(zhuǎn)載此文是出于傳遞更多信息之目的。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時(shí)更正、刪除,謝謝。 郵箱地址:xlg@xhpr.net