來源:測序中國 時間:2021-01-08
新基因組組裝是基因組學最重要的任務之一。三代測序技術(PacBio和Oxford Nanopore)可解決基因組重復區(qū)域的組裝難題,提高基因組完整性,已成為基因組組裝主流技術。其中,納米孔(Nanopore)測序技術的迅速發(fā)展更使得測序成本顯著降低,并且由于其可實現(xiàn)超長讀長(高達1Mbp),在復雜基因組組裝中具有天然優(yōu)勢。然而,目前Nanopore的測序錯誤分布廣泛(10-30%,圖1A),存在高錯誤局部區(qū)域(1000bp中存在50%測序錯誤,圖1B),并且高錯誤局部區(qū)域的發(fā)生隨著測序讀長增加而顯著增加(圖1C),從而導致超長文庫數據中20-30%的序列存在高錯誤區(qū)域?,F(xiàn)有的錯誤校正軟件只能通過裁剪的方式剔除高錯誤局部區(qū)域,顯著降低了Nanopore序列完整性和組裝完整性。
圖 1. Nanopore測序錯誤分布特征
針對Nanopore測序錯誤特征,中山大學中山眼科中心肖傳樂/劉奕志團隊和中南大學王建新團隊于2021年1月4日在Nature Communications雜志上聯(lián)合發(fā)表題為“Efficient assembly of Nanopore reads via highly accurate and intact error correction”的研究論文,提出了Nanopore漸進式校正組裝模型,并開發(fā)了相應的軟件NECAT。
文章發(fā)表在Nature Communications上
研究者提出了漸進式序列校正策略,首先選擇高精度的序列校正錯誤率的區(qū)域(圖2B),之后優(yōu)選校正后高精度序列校正高錯誤局部區(qū)域,從而保證了序列校正速度和完整性(圖2C);此外,研究者還提出漸進式組裝策略,通過校正后高精度的序列組裝基因組骨架(圖2D),之后通過原始序列提升基因組完整度(圖2E),從而保證基因組組裝結果的正確性和完整性。研究者將上述模型開發(fā)了NECAT軟件,開放給國內外其他科研人員,進行長達1年的體驗提升。
圖2. NECAT校正組裝流程圖
隨后,研究者收集了多種模式生物Nanopore數據集進行性能測試,結果表明:NECAT校正后序列平均精度可達95-98%,可恢復原始數據中99%的高錯誤局部區(qū)域(HERS),從而保留了序列長度完整性(表1);NECAT組裝完整性明顯高于同類校正組裝軟件,且組裝錯誤量顯著低于同類軟件。另外,研究者將NECAT校正結果與多個組裝軟件結合使用發(fā)現(xiàn),NECAT校正結果能顯著提高其它Nanopore組裝軟件的組裝質量。
表1. NECAT序列錯誤校正性能評估
最后,研究者完成了視網膜母細胞瘤Nanopore測序,并應用NECAT組裝出了完整度較高的母細胞瘤癌癥基因組,通過組裝結果發(fā)現(xiàn)了很多高精度結構變異(SV)位點,其中很多位點都與目前研究報道和功能預測相符(圖3)。與原始數據SV檢測方法相比,NECAT組裝結果檢測SV精度顯著高于目前SV檢測方法。上述結果表明,通過NECAT序列校正能夠顯著減少高錯誤區(qū)域所造成的SV假陽性結果。
圖3. 視網膜母細胞瘤基因組染色體圖譜及SV位點
綜上所述,該研究提出的漸進式校正組裝方法可以有效解決Nanopore復雜測序錯誤問題,顯著提高了Nanopore數據組裝完整性、正確性和數據利用率。另外,通過NECAT序列校正,可以有效降低高錯誤區(qū)域SV的假陽性。
陳穎博士:中山大學中山眼科中心副研究員,長期從事三代測序基礎算法研究,以第一作者在Nature Methods,Nature Communications, Nucleic Acids Research等雜志發(fā)表多篇文章。
聶藩博士:中南大學計算機學院博士生。主要從事基因組組裝算法研究。
謝尚潛博士:海南大學林學院教授,主要從事三代測序數據分析工作。目前以第一或通訊在Nature Methods, Nature Communications, Nucleic Acids Research,Horticulture Research等雜志發(fā)表論文20余篇。
王建新:中南大學計算機學院教授、博士生導師、計算機學院院長。IEEE高級成員、國務院學位委員會第七屆學科評議組成員(計算機科學與技術組),國家973計劃前期研究專項項目“信息處理算法及物理實現(xiàn)”首席科學家。主要研究方向計算機算法與優(yōu)化、網絡優(yōu)化理論、大數據應用、深度學習、生物信息學、虛擬實驗環(huán)境等。在Nature Communications、Genome Research、Medical Image Analysis等國際刊物和會議上發(fā)表論文200余篇。
肖傳樂:中山大學中山眼科中心副研究員、碩博士生導師、廣東省杰出青年基金獲得者,長期從事三代測序前沿技術開發(fā)及應用研究。主持開發(fā)了三代測序組裝方法MECAT,MECAT2,NECAT和三代測序表觀修飾檢測方法DeepMod,在Nature Methods,Molecular Cell和Nature Communications等雜志上發(fā)表論文40余篇。