來源:生物通 時(shí)間:2020-06-01
本周《Nature》,有四篇論文提供了從基因組聚集數(shù)據(jù)庫(Genome Aggregation Database)收集到的深入見解。
本文圖片來自Broad研究所
gnomAD,是保存了60706個(gè)個(gè)體的外顯子的2016年的ExAC數(shù)據(jù)庫的升級(jí)版,它總共收集了125748個(gè)外顯子和15708個(gè)全基因組序列。
本周《Nature》,有四篇論文提供了從基因組聚集數(shù)據(jù)庫(Genome Aggregation Database)收集到的深入見解。
這種規(guī)模和范圍的增加使得gnomAD聯(lián)盟不僅可以對(duì)個(gè)體之間的單核苷酸變異進(jìn)行分類,還可以對(duì)由50個(gè)或更多核苷酸組成的更復(fù)雜的結(jié)構(gòu)變異進(jìn)行分類。在本期Nature重點(diǎn)論文中,康拉德?卡澤夫斯基(Konrad Karczewski)和同事們回顧了這個(gè)數(shù)據(jù)庫,并探索了能夠使蛋白質(zhì)編碼基因失活的變體。在第二篇論文中,貝麗爾?卡明斯(Beryl Cummings)和同事證明,RNA表達(dá)數(shù)據(jù)可以用來指導(dǎo)變異的演繹方式。在另一篇論文中,埃里克?米尼克爾(Eric Minikel)和同事們探討了gnomAD數(shù)據(jù)如何幫助識(shí)別藥物的基因靶點(diǎn)。在第四篇論文中,瑞恩?柯林斯(Ryan Collins)團(tuán)隊(duì)則列出了433371個(gè)結(jié)構(gòu)變異的目錄,并分析了它們對(duì)生理特性的影響。
下面讓我們?cè)敿?xì)介紹一下這幾篇本期重點(diǎn)文章。
在過去的八年里,基因組聚集數(shù)據(jù)庫(gnomAD)聯(lián)盟(和它的前身,外顯子集合聯(lián)盟,簡稱ExAC)一直與世界各地的遺傳學(xué)家合作,從世界各地的人群中收集和研究超過125000個(gè)外顯子和15000個(gè)全基因組。
最近,《Nautre》、《Nature Communications》和《Nature Medicine》上總計(jì)發(fā)表了七篇論文。gnomAD 聯(lián)盟的科學(xué)家描述了他們從數(shù)據(jù)庫中獲得的第一組發(fā)現(xiàn),顯示了這一海量數(shù)據(jù)收集的威力。這一系列旗艦隊(duì)論文的收獲是:
一、提出一個(gè)更完整的目錄和理解一類罕見的遺傳變異,被稱為功能喪失(loss-of-function,LoF)變異,它被認(rèn)為會(huì)破壞基因編碼蛋白質(zhì);
二、介紹了一個(gè)尚未研究但重要的遺傳變異類型,結(jié)構(gòu)變異(structural variants)的最大綜合參考圖;
三、說明獨(dú)特變異形式和變異生物背景的工具如何幫助臨床遺傳學(xué)家診斷罕見遺傳病患者;
四、舉例說明像gnomAD這樣的規(guī)模的數(shù)據(jù)集如何幫助評(píng)估擬議的藥物靶點(diǎn)。
麻省理工大學(xué)Broad研究所、哈佛大學(xué)和麻省總醫(yī)院(MGH)的研究人員擔(dān)任所有研究的聯(lián)合第一或聯(lián)合高級(jí)作者,英國倫敦帝國理工學(xué)院、直接面向消費(fèi)者的遺傳學(xué)公司23andMe和其他機(jī)構(gòu)的科學(xué)家為論文個(gè)人作者。國際上有100多名科學(xué)家和團(tuán)體向該聯(lián)盟提供了數(shù)據(jù)和/或分析工作。
“這些研究代表了gnomAD聯(lián)盟的第一次重大發(fā)現(xiàn)浪潮,”gnomAD項(xiàng)目的科學(xué)負(fù)責(zé)人丹尼爾?麥克阿瑟(Daniel MacArthur)說,他是其中六項(xiàng)研究的資深作者,是Broad 研究所醫(yī)學(xué)和人口遺傳學(xué)項(xiàng)目的研究所成員?!边@一數(shù)據(jù)庫的力量來自其龐大的規(guī)模和人口多樣性,我們之所以能夠接觸到這一點(diǎn),是因?yàn)橄蚱涮峁?shù)據(jù)的研究人員和參與這些貢獻(xiàn)研究的研究人員的慷慨捐助?!?
“從某種意義上說,gnomAD是一個(gè)聯(lián)盟產(chǎn)物,因?yàn)榛A(chǔ)數(shù)據(jù)代表了許多團(tuán)體的工作和貢獻(xiàn),他們一直在收集外顯子和基因組序列,以此來理解人類生物學(xué),”Konrad Karczewski說,他是發(fā)表在《Nature》雜志旗艦論文的第一作者,也是Broad和MGH分析和轉(zhuǎn)化遺傳學(xué)部門的計(jì)算生物學(xué)家。“這些論文中的每一篇都代表著有人給數(shù)據(jù)集帶來了一個(gè)新的視角……我有一個(gè)想法,我們可以把所有這些都付諸實(shí)踐,”他說?!安檫z傳學(xué)界創(chuàng)造了一個(gè)新的資源??吹剿归_真是太神奇了?!?
“巨人”的成長史
Karczewski和他的同事建立了ExAC,然后gnomAD擴(kuò)展了際上第一個(gè)大規(guī)模的人類遺傳變異分類“1000個(gè)基因組”項(xiàng)目和其他項(xiàng)目的工作。
Karczewski回憶說:“2012年,我的實(shí)驗(yàn)室正在對(duì)罕見疾病患者的基因組進(jìn)行測序,發(fā)現(xiàn)現(xiàn)有的正常變異目錄不夠大或多樣,不足以幫助我們解釋我們所看到的基因變化。與此同時(shí),我們?cè)谑澜绺鞯氐耐乱呀?jīng)對(duì)數(shù)萬人進(jìn)行了測序,以研究常見的、復(fù)雜的疾病。因此,我們著手將這些數(shù)據(jù)集整合在一起,為罕見疾病研究創(chuàng)建一個(gè)參考數(shù)據(jù)集?!?
ExAC聯(lián)盟于2014年10月發(fā)布了其首次收集的全部外顯子組數(shù)據(jù)。然后開始收集全基因組數(shù)據(jù),演變成gnomAD聯(lián)盟,并于2017年2月發(fā)布gnomAD v1.0。
隨后的gnomAD版本關(guān)注于增加外顯子和基因組的數(shù)量、數(shù)據(jù)中突出顯示的變體的數(shù)量以及數(shù)據(jù)集的多樣性。
這些新的論文基于gnomAD v2.1.1數(shù)據(jù)集,其中包括來自超過25000名東亞和南亞后裔、近18000名拉丁裔和12000名非裔或非裔美國人的基因組和外顯子。
一款全面的綜合目錄
七篇論文中有兩篇展示了大的基因組數(shù)據(jù)集如何幫助研究人員更多地了解稀有或未被研究的基因變異類型。
由Karczewski和MacArthur領(lǐng)導(dǎo),發(fā)表在《Nature》雜志上這兩篇研究描述了gnomAD和功能喪失(LoF)變異圖譜,LoF被認(rèn)為是完全破壞蛋白質(zhì)編碼基因功能的基因變化。作者在gnomAD數(shù)據(jù)集中發(fā)現(xiàn)了443000多個(gè)LoF變體,大大超過了以前的所有目錄。通過比較每個(gè)基因中這些罕見變異的數(shù)量和人類基因組突變率的新模型的預(yù)測,作者還能夠?qū)⑺芯幋a蛋白質(zhì)的基因?qū)ζ茐男酝蛔兊哪褪艹潭葋韺?duì)它們進(jìn)行分類,也就是說,當(dāng)基因被基因變異破壞時(shí),基因引起重大疾病的可能性有多大。這一新的分類方案確定了更可能與諸如智力殘疾等嚴(yán)重疾病有關(guān)的基因。
Karczewski解釋說:“gnomAD目錄為我們提供了迄今為止對(duì)基因變異敏感性譜的最佳觀察,并為支持常見和罕見疾病中的基因發(fā)現(xiàn)提供了資源?!?
當(dāng)Karczewski和MacArthur的研究集中于小的變異(點(diǎn)突變、小的插入或刪除等)時(shí),研究生Ryan Collins、Broad的科學(xué)家Harrison Brand、Michael Talkowski和同事使用gnomAD來探索結(jié)構(gòu)變異。這類基因組變異包括重復(fù)、缺失、反轉(zhuǎn)和其他涉及較大DNA片段(通常大于50-100堿基長)的變化。他們的研究也發(fā)表在《Nature》雜志上,展示了一個(gè)包含433000個(gè)結(jié)構(gòu)變異的目錄,gnomAD-SV。這些在將近15000個(gè)gnomAD基因組中識(shí)別出的結(jié)構(gòu)變異,代表了大多數(shù)已知的主要結(jié)構(gòu)變化類別,并共同形成了迄今為止最大的結(jié)構(gòu)變異圖譜。
“眾所周知,在全基因組數(shù)據(jù)中識(shí)別結(jié)構(gòu)變異是一項(xiàng)艱巨的任務(wù),而且以前從未進(jìn)行過這種規(guī)模的調(diào)查,”Talkowski指出,他也是MGH基因組醫(yī)學(xué)中心的一名教員?!暗鼈儽热魏纹渌儺愋问蕉寄芨淖兓蚪M中更多的個(gè)體堿基,是人類進(jìn)化和疾病的可靠驅(qū)動(dòng)力?!?/span>
他們的調(diào)查得出了幾個(gè)令人驚訝的發(fā)現(xiàn)。例如,平均每個(gè)基因組中至少有25%的罕見LoF變異實(shí)際上是結(jié)構(gòu)變異,許多人攜帶的是有毒有害的結(jié)構(gòu)改變,但沒有預(yù)期的表型或臨床結(jié)果。
他們還指出,許多基因?qū)?fù)制和缺失同樣敏感;也就是說,從進(jìn)化的角度來看,獲得一個(gè)或多個(gè)基因拷貝和失去同樣不受歡迎。
“我們通過從gnomAD建立這個(gè)目錄學(xué)到了很多東西,但我們顯然只觸及了了解基因組結(jié)構(gòu)對(duì)生物學(xué)和疾病影響的表層,”Talkowski說。
更好的診斷工具
另外三篇論文揭示了gnomAD對(duì)不同類型遺傳變異和變異產(chǎn)生的細(xì)胞環(huán)境的深入分類如何幫助臨床遺傳學(xué)家更準(zhǔn)確地確定給定變異在患者中是保護(hù)性的、中性的還是有害的。
在《Nature》雜志的一篇論文中,前Broad/MGH研究生Beryl Cummings,現(xiàn)在Maze療法工作,MacArthur和他們的同事發(fā)現(xiàn),基于組織的特定基因片段表達(dá)方式的差異可以改變這些片段內(nèi)的變體對(duì)生物學(xué)和疾病風(fēng)險(xiǎn)的下游影響。研究小組將來自gnomAD和基因型組織表達(dá)(GTEx)項(xiàng)目的數(shù)據(jù)結(jié)合起來,開發(fā)出一種利用這些差異來評(píng)估變異的臨床意義的方法。
在《Nature Communications》雜志上,MacArthur、研究生Qingbo Wang和合作者調(diào)查了多核苷酸變異,這些變異是由兩個(gè)或多個(gè)相鄰堿基對(duì)的變化共同遺傳而成的。這種變異可能有復(fù)雜的影響,本研究首次嘗試系統(tǒng)地分類這些變異,檢查它們?cè)谡麄€(gè)基因組中的分布,并預(yù)測它們對(duì)基因結(jié)構(gòu)和功能的影響。
在另一篇Nature Communications文章中,MacArthur、Nicola Whiffin和倫敦帝國理工學(xué)院的詹姆斯?威爾(James Ware)等人探索了5’非編碼區(qū)的DNA變異的影響,這些區(qū)域正好位于細(xì)胞轉(zhuǎn)錄機(jī)器開始讀取基因蛋白質(zhì)代碼的地方。這些區(qū)域的變異可以誘使細(xì)胞在錯(cuò)誤的地方開始閱讀基因,這些信息以前并沒有很好的綜合記錄。
“臨床實(shí)驗(yàn)室每天都在使用gnomAD,”臨床遺傳學(xué)家Heidi Rehm說,他是Broad MPG的研究所成員,也是Broad臨床研究測序平臺(tái)的醫(yī)學(xué)主任;MGH醫(yī)學(xué)部的首席基因組學(xué)官員。“這些研究中的方法已經(jīng)在幫助我們更好地解釋患者的基因測試結(jié)果。”
指導(dǎo)藥物開發(fā)
剩下的兩篇論文描述了gnomAD多樣性、群體規(guī)模的遺傳數(shù)據(jù)如何幫助研究人員評(píng)估和選擇最佳藥物靶點(diǎn)。
2018年,Broad的科學(xué)家埃里克?米尼克爾(Eric Minikel)在他的研究博客上思考,是否可以利用具有自然發(fā)生的預(yù)測性LoF變異的基因來評(píng)估用藥物靶向這些基因的安全性。他寫道,如果一個(gè)自然失活的基因似乎沒有有害影響,也許該基因也可以安全地被藥物抑制。那篇博文成為了一篇Nature論文的基礎(chǔ),Minikel,MacArthur和他的同事們應(yīng)用gnomAD數(shù)據(jù)集來探討了這個(gè)問題。他們提出了將LoF變異體的見解納入藥物開發(fā)過程的方法。
利用Broad研究所的專業(yè)知識(shí),Whiffin,MacArthur,Broad博士后研究員伊琳娜?阿姆恩(Irina Armean),23andMe公司的亞倫?克萊曼(Aaron Kleinman)和保羅?坎農(nóng)(Paul Cannon),以及其他人用UK Biobank、gnomAD和23andMe中的LoF變體目錄,研究減少一種與帕金森病風(fēng)險(xiǎn)有關(guān)叫做LRRK2的基因的表達(dá)。
在《Nature Medicine》文中,他們利用這些數(shù)據(jù)預(yù)測降低LRRK2蛋白水平或部分阻斷基因活性的藥物不太可能有嚴(yán)重的副作用。
MacArthur說:“我們整理了gnomAD中大量基因-破壞變體。通過這兩項(xiàng)研究,我們展示了如何利用這些變異來闡明和評(píng)估潛在的藥物靶點(diǎn)。”
gnomAD共享信息的未來價(jià)值,不可限量
所有數(shù)據(jù)的公開共享從一開始就是gnomAD項(xiàng)目的核心原則。這7篇論文背后的數(shù)據(jù)已在2016年通過gnomAD瀏覽器公開發(fā)布,沒有使用或發(fā)布限制。
MacArthur說:“這個(gè)資源已經(jīng)對(duì)現(xiàn)在的醫(yī)學(xué)研究和臨床實(shí)踐產(chǎn)生了廣泛的影響,這證明了基因組數(shù)據(jù)共享和聚合的難以置信的價(jià)值。自從我們提供數(shù)據(jù)以來,已有350多個(gè)獨(dú)立的研究利用gnomAD對(duì)癌癥易感性、心血管疾病、罕見的遺傳性疾病等進(jìn)行了探究。
“但我們還遠(yuǎn)遠(yuǎn)未達(dá)到發(fā)現(xiàn)飽和,或變體解釋飽和。該聯(lián)盟下一步的重點(diǎn)將是增加這些資源的規(guī)模和種群多樣性,并將由此產(chǎn)生的大規(guī)模遺傳數(shù)據(jù)集與臨床信息聯(lián)系起來?!?nbsp;
相關(guān)文獻(xiàn)檢索:
1. Nature volume 581. The mutational constraint spectrum quantified from variation in 141,456 humans
2. Nature volume 581.A structural variation reference for medical and population genetics
3. Nature volume 581.Transcript expression-aware annotation improves rare variant interpretation
4. Nature volume 581.Evaluating drug targets through human loss-of-function genetic variation
5. Nature Communications volume 11. Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes
6. Nature Communications volume 11. Characterising the loss-of-function impact of 5’ untranslated region variants in 15,708 individuals
7. Nature Medicine volume 26. The effect of LRRK2 loss-of-function variants in humans