來源:ScienceAI 時間:2021-08-12
小分子的鑒定是生命科學(xué)一項關(guān)鍵任務(wù)。質(zhì)譜(mass spectrometry,MS)可用于分析化合物成分,高通量質(zhì)譜技術(shù)能夠從數(shù)十萬個環(huán)境中收集小分子的串聯(lián)質(zhì)譜。然而,現(xiàn)有的方法是基于化學(xué)領(lǐng)域的知識,無法解釋小分子質(zhì)譜中的許多峰。
卡內(nèi)基梅隆大學(xué)和俄羅斯圣彼得堡國立大學(xué)的研究人員提出一種算法——MolDiscovery,提高了小分子識別的效率和準(zhǔn)確性。該算法使用分子的質(zhì)譜數(shù)據(jù)來預(yù)測未知物質(zhì)的「身份」,在研究早期告訴科學(xué)家他們是偶然發(fā)現(xiàn)了新事物,還是僅僅重新發(fā)現(xiàn)了已知事物,可節(jié)省發(fā)現(xiàn)新的天然醫(yī)藥產(chǎn)品的時間和金錢。
該研究于6月17日以「MolDiscovery: learning mass spectrometry fragmentation of small molecules」為題發(fā)表在《自然通訊》(Nature Communications)雜志上。
MS 是一種電離化學(xué)物質(zhì)并根據(jù)其質(zhì)荷比(質(zhì)量-電荷比)對其進(jìn)行排序的分析技術(shù)。廣泛應(yīng)用于各個學(xué)科領(lǐng)域中通過制備、分離、檢測氣相離子來鑒定化合物。質(zhì)譜圖是小分子的指紋,可以用一組質(zhì)量峰表示,但與指紋不同的是,沒有龐大的數(shù)據(jù)庫來匹配它們。盡管已經(jīng)發(fā)現(xiàn)了數(shù)十萬種天然分子,但科學(xué)家們無法獲得他們的質(zhì)譜數(shù)據(jù)。
目前,已經(jīng)出現(xiàn)了包含數(shù)萬個小分子注釋質(zhì)譜的譜庫,為開發(fā)基于機(jī)器學(xué)習(xí)的方法來提高計算機(jī)數(shù)據(jù)庫搜索的靈敏度和特異性鋪平了道路。然而,現(xiàn)有方法對于超小分子(< 400 Da)表現(xiàn)不佳,并且對于「重」小分子(>1000 Da)在計算上不足。
現(xiàn)在,該研究團(tuán)隊提出一種質(zhì)譜數(shù)據(jù)庫搜索方法—— MolDiscovery,通過學(xué)習(xí)概率模型來將小分子與其質(zhì)譜相匹配,大大提高了小分子識別的準(zhǔn)確性,同時使搜索效率提高了一個數(shù)量級。
從全球天然產(chǎn)物社會分子網(wǎng)絡(luò)(GNPS;http://gnps.ucsd.edu) 搜索了 800 萬個串聯(lián)質(zhì)譜后,MolDiscovery 以 0% 的錯誤發(fā)現(xiàn)率 (FDR) 鑒定了 3185 個獨特的小分子,與現(xiàn)有方法相比,增加了 6 倍。在具有已知基因組的 GNPS 存儲庫的一個子集上,MolDiscovery 正確地將 19 個已知和三個假定的生物合成基因簇與其分子產(chǎn)物聯(lián)系起來。
MolDiscovery 框架
MolDiscovery 框架主要分兩個過程:訓(xùn)練過程和評分過程。具體步驟:
從構(gòu)建代謝物圖和生成碎片圖開始。對于后者,MolDiscovery 使用一種新的高效算法來查找代謝物圖中的橋接和 2-cuts;
MolDiscovery 繼續(xù)學(xué)習(xí)匹配碎裂圖和質(zhì)譜的概率模型(圖 1a-e);
對小分子光譜對進(jìn)行評分(圖 1f-k),計算 FDR。
圖1:MolDiscovery 框架。(來源:論文)
基準(zhǔn)測試
MolDiscovery 與其他五種最先進(jìn)的方法進(jìn)行了比較,數(shù)據(jù)庫搜索結(jié)果顯示,MolDiscovery識別效果最好,平均可以正確識別測試 GNPS 和 MoNA 數(shù)據(jù)中的 43.3% 和 64.3% 的小分子。
圖2:所有測試方法的最高 K = 1、3、5 和 10 準(zhǔn)確度。(來源:論文)
MolDiscovery 也是針對 DNP 搜索 GNPS 的最快和最節(jié)省內(nèi)存的方法之一。在預(yù)處理階段,MolDiscovery 比其中一種方法快 300 倍以上。
還根據(jù)正確分子匹配的質(zhì)量范圍評估了運行時間。對于質(zhì)量 >1000 Da 的分子光譜,相同質(zhì)量范圍內(nèi),MolDiscovery 平均只需 6 分鐘和 24 秒。
注釋 8 倍多的光譜,識別出 6倍多的獨特化合物
從GNPS 搜索了 800 萬個串聯(lián)質(zhì)譜,在嚴(yán)格的 0% FDR 水平下,MolDiscovery 注釋了 8 倍多的光譜,并識別出比 Dereplicator+ (一種從MS中識別小分子的數(shù)據(jù)庫搜索復(fù)制器)多6倍的獨特化合物。
MolDiscovery 搜索在 10 個線程上花費了 34 天,與單線程上的預(yù)測 329 天非常接近。值得注意的是,在搜索如此大規(guī)模的光譜數(shù)據(jù)集時,MolDiscovery 比其他方法要高效得多,只需要對分子數(shù)據(jù)庫進(jìn)行一次預(yù)處理,可以有效地搜索未來的光譜。
節(jié)省新藥研發(fā)時間、成本
「科學(xué)家們浪費了大量時間來分離已知的分子?!寡芯繄F(tuán)隊成員 Hosein Mohimani 說。「早期檢測分子是否已知,可以節(jié)省時間和數(shù)百萬美元,并有望使制藥公司和研究人員更好地尋找可能用于新藥開發(fā)的新型天然產(chǎn)品?!?/strong>
Mohimani 解釋說:「例如,科學(xué)家檢測出一種在海洋或土壤樣本中有望成為潛在藥物的分子后,可能需要一年或更長時間才能識別出這種分子,而不能保證該物質(zhì)是新的。MolDiscovery 使用質(zhì)譜測量和預(yù)測機(jī)器學(xué)習(xí)模型快速準(zhǔn)確地識別分子,且無需依賴質(zhì)譜數(shù)據(jù)庫進(jìn)行匹配?!?nbsp;
該團(tuán)隊希望 MolDiscovery 將成為實驗室發(fā)現(xiàn)新型天然產(chǎn)物的有用工具。MolDiscovery 可以與 Mohimani 實驗室開發(fā)的機(jī)器學(xué)習(xí)平臺 NRPminer 協(xié)同工作,幫助科學(xué)家分離天然產(chǎn)物。
【來源:ScienceAI】
聲明:轉(zhuǎn)載此文是出于傳遞更多信息之目的。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 郵箱地址:xlg@xhpr.net