微軟開源EvoDiff新型蛋白質(zhì)生成人工智能 核心是6.4億參數(shù)模型

微軟開源EvoDiff新型蛋白質(zhì)生成人工智能 核心是6.4億參數(shù)模型

本周,微軟推出了一個通用框架EvoDiff,該公司聲稱可以根據(jù)給定的蛋白質(zhì)序列生成“高保真”、“多樣化”的蛋白質(zhì)。與其他蛋白質(zhì)生成框架不同,EvoDiff 不需要任何有關(guān)目標(biāo)蛋白質(zhì)的結(jié)構(gòu)信息,省去了通常最費力的步驟。

微軟高級研究員 Kevin Yang 表示,EvoDiff 是開源的,可用于創(chuàng)建用于新療法和藥物輸送方法的酶,以及用于工業(yè)化學(xué)反應(yīng)的新酶。

“我們設(shè)想 EvoDiff 將擴(kuò)展蛋白質(zhì)工程的能力,超越結(jié)構(gòu)-功能范式,轉(zhuǎn)向可編程、序列優(yōu)先的設(shè)計,”EvoDiff 的聯(lián)合創(chuàng)始人之一楊向媒體表示,“通過 EvoDiff,我們證明我們實際上可能不需要結(jié)構(gòu),而是‘蛋白質(zhì)序列就是你所需要的’來可控地設(shè)計新蛋白質(zhì)?!?/p>

EvoDiff 框架的核心是一個包含 6.4 億個參數(shù)的模型,該模型根據(jù)來自所有不同物種和蛋白質(zhì)功能類別的數(shù)據(jù)進(jìn)行訓(xùn)練。(“參數(shù)”是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的 AI 模型的一部分,本質(zhì)上定義了模型解決問題的技能 – 在本例中生成蛋白質(zhì)。)訓(xùn)練模型的數(shù)據(jù)來源于用于序列比對的 OpenFold 數(shù)據(jù)集UniRef50,UniProt 數(shù)據(jù)的子集,UniProt 聯(lián)盟維護(hù)的蛋白質(zhì)序列和功能信息數(shù)據(jù)庫。

EvoDiff 是一種擴(kuò)散模型,其架構(gòu)類似于許多現(xiàn)代圖像生成模型,例如穩(wěn)定擴(kuò)散和DALL-E 2。EvoDiff 學(xué)習(xí)如何逐漸從幾乎完全由噪音組成的起始蛋白質(zhì)中減去噪音,使其慢慢地、一步一步地接近蛋白質(zhì)序列。

微軟開源EvoDiff新型蛋白質(zhì)生成人工智能 核心是6.4億參數(shù)模型
EvoDiff 生成蛋白質(zhì)的過程。圖片來源:?Microsoft EvoDiff

擴(kuò)散模型已越來越多地應(yīng)用于圖像生成之外的領(lǐng)域,從設(shè)計新型蛋白質(zhì)(如 EvoDiff)到創(chuàng)作音樂甚至合成語音。

“如果要從 EvoDiff 中汲取一件事,我認(rèn)為我們可以而且應(yīng)該通過序列進(jìn)行蛋白質(zhì)生成,因為我們能夠?qū)崿F(xiàn)通用性、規(guī)?;湍K化,” EvoDiff 的另一位共同貢獻(xiàn)者、微軟高級研究員 Ava Amini 表示,“我們的擴(kuò)散框架使我們有能力做到這一點,并控制我們?nèi)绾卧O(shè)計這些蛋白質(zhì)以滿足特定的功能目標(biāo)?!?/p>

Amini 認(rèn)為,EvoDiff 不僅可以創(chuàng)造新的蛋白質(zhì),還可以填補現(xiàn)有蛋白質(zhì)設(shè)計中的“空白”。例如,如果蛋白質(zhì)的一部分與另一種蛋白質(zhì)結(jié)合,模型可以圍繞該部分生成滿足一組標(biāo)準(zhǔn)的蛋白質(zhì)氨基酸序列。

由于 EvoDiff 在“序列空間”而不是蛋白質(zhì)結(jié)構(gòu)中設(shè)計蛋白質(zhì),因此它還可以合成最終不會折疊成最終三維結(jié)構(gòu)的“無序蛋白質(zhì)”。與正常功能蛋白質(zhì)一樣,無序蛋白質(zhì)在生物學(xué)和疾病中發(fā)揮著重要作用,例如增強(qiáng)或降低其他蛋白質(zhì)活性。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/582034.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論