正在閱讀:

上海交大發(fā)布蛋白質(zhì)設(shè)計模型,引入AI可高效精準(zhǔn)設(shè)計相關(guān)功能

掃一掃下載界面新聞APP

上海交大發(fā)布蛋白質(zhì)設(shè)計模型,引入AI可高效精準(zhǔn)設(shè)計相關(guān)功能

經(jīng)過Venus系列模型設(shè)計的多款蛋白質(zhì)已經(jīng)實現(xiàn)了落地產(chǎn)業(yè)化。

AIGC圖片,來源:圖蟲

界面新聞記者 | 劉素楠

界面新聞編輯 | 彭朋

322日,上海交通大學(xué)洪亮教授團隊發(fā)布蛋白質(zhì)設(shè)計模型Venus,該團隊將AI與蛋白質(zhì)設(shè)計與改造相結(jié)合,建立了全球最大的蛋白質(zhì)數(shù)據(jù)集,基于該數(shù)據(jù)集訓(xùn)練的模型,可以精準(zhǔn)、高效地預(yù)測、設(shè)計蛋白質(zhì)的功能,把蛋白質(zhì)生產(chǎn)由緩慢的試錯變?yōu)?span>“高效率的精準(zhǔn)設(shè)計。

該成果配合行業(yè)領(lǐng)先的自動化設(shè)備,已經(jīng)進行產(chǎn)業(yè)化落地,把蛋白質(zhì)設(shè)計從原先的復(fù)雜科學(xué)變?yōu)槿缃竦?span>“簡單工程。

洪亮團隊建立的蛋白質(zhì)序列數(shù)據(jù)集Venus-PodVenus-Protein Outsize Dataset)含有近90億條蛋白質(zhì)序列,包含數(shù)億個功能標(biāo)簽,是全球數(shù)據(jù)規(guī)模最大、功能批注標(biāo)簽最多的數(shù)據(jù)集,也是另一行業(yè)知名模型——美國ESM-C模型訓(xùn)練用的21億蛋白質(zhì)序列的4倍體量。

該數(shù)據(jù)集包含36.2億條陸地微生物蛋白質(zhì)序列、26.4億條海洋微生物蛋白質(zhì)序列、24.3億條抗體蛋白質(zhì)序列、0.6億條病毒蛋白質(zhì)序列,覆蓋從常規(guī)地表生物到極端環(huán)境微生物的蛋白質(zhì)序列信息,尤其是配備的數(shù)億功能標(biāo)簽(蛋白質(zhì)工作的溫度、酸堿度、壓強等)。

洪亮表示,該數(shù)據(jù)集構(gòu)成了巨大的蛋白質(zhì)礦藏,使得人類有可能挖掘新的蛋白或者生物催化劑,助力生物醫(yī)藥和合成生物學(xué)的快速發(fā)展;其次,AI大模型有望通過海量數(shù)據(jù)的學(xué)習(xí)和掌握自然界蛋白質(zhì)的進化模式,為AI設(shè)計優(yōu)異的蛋白質(zhì)產(chǎn)品提供了寶貴的學(xué)習(xí)資料。

2024年,諾貝爾化學(xué)獎頒發(fā)給谷歌DeepMind團隊,該團隊利用AI技術(shù)精準(zhǔn)解析了蛋白質(zhì)序列到三維結(jié)構(gòu)的關(guān)系,解決了困擾生物學(xué)家長達50年的基本難題。

然而,一個現(xiàn)實的問題是:如果稍微改動蛋白質(zhì)的氨基酸序列,哪怕只是1%的微小改變,蛋白質(zhì)的整體結(jié)構(gòu)看似沒有發(fā)生明顯變化,但它的功能大概率會變差,甚至完全喪失。

換言之,要設(shè)計出一款成功的蛋白質(zhì)產(chǎn)品,不能只關(guān)注它的三維結(jié)構(gòu),而是要能成功預(yù)測和設(shè)計它的功能。

因此,洪亮教授團隊另辟蹊徑,不再執(zhí)著于蛋白質(zhì)的結(jié)構(gòu),而是直接瞄準(zhǔn)功能預(yù)測這一終極目標(biāo),將復(fù)雜的蛋白質(zhì)設(shè)計變成以需求為導(dǎo)向,配合少量實驗輸出結(jié)果的簡單過程。

我們訓(xùn)練了Venus(啟明星)系列模型,與DeepMind團隊的AlphaFold預(yù)測蛋白質(zhì)結(jié)構(gòu)不同,這個模型學(xué)習(xí)自然界蛋白質(zhì)序列的組織規(guī)則以及它與功能之間的關(guān)系,其預(yù)測蛋白質(zhì)突變功能的精度位居行業(yè)榜單之首。洪亮表示。

Venus系列模型具備兩大核心功能:“AI定向進化“AI挖酶。

所謂“AI定向進化是指 Venus系列模型可以對一個不盡如人意的蛋白質(zhì)產(chǎn)品的多種性能進行優(yōu)化,讓它成為一個六邊形戰(zhàn)士滿足應(yīng)用需求。

“AI挖酶則是指 Venus 系列模型基于其海量的未知功能蛋白質(zhì)數(shù)據(jù)集,可以海選超能力戰(zhàn)士,去精準(zhǔn)發(fā)掘滿足苛刻應(yīng)用需求的具備超常規(guī)功能的蛋白質(zhì),比如極度耐熱、極度耐酸、極度耐堿、極度耐胃腸消化等。

這些超常規(guī)功能的蛋白質(zhì)在生物技術(shù)、醫(yī)藥研發(fā)和工業(yè)生產(chǎn)中具有巨大的應(yīng)用潛力,能夠為相關(guān)領(lǐng)域帶來創(chuàng)新和突破。

與此同時,配合Venus系列模型的全球首款低通量大體積蛋白質(zhì)表達、純化與功能檢測自動化一體機,可在24小時內(nèi)不間斷地完成100余個蛋白質(zhì)的表達、純化與檢測任務(wù),較人力效率提高近10倍,將大大減少研發(fā)過程中的人力、物力和時間成本投入,顯著提高蛋白質(zhì)工程與合成生物學(xué)研究的效率。其宗旨就是設(shè)計AI化,實驗自動化,讓科研人員從繁瑣的設(shè)計和實驗中解放出來,他們只需要提出問題,AI和自動化來解決問題,最終將復(fù)雜的蛋白質(zhì)科學(xué)發(fā)現(xiàn)變成傻瓜相機式的簡單過程。

目前,經(jīng)過Venus系列模型設(shè)計的多款蛋白質(zhì)已經(jīng)實現(xiàn)了落地產(chǎn)業(yè)化。

以國內(nèi)生長激素龍頭金賽藥業(yè)的單域抗體耐堿性改造為例。提升蛋白質(zhì)的耐堿性歷來是一項極具挑戰(zhàn)性的工作,洪亮團隊借助該模型結(jié)合少量濕實驗閉環(huán)迭代驗證,不到一年將普通單域抗體耐堿性提升 4 倍,每年為金賽藥業(yè)節(jié)約上千萬元成本。該成果已實現(xiàn)多個批次 5000 升放大生產(chǎn),成為全球首款由大模型設(shè)計并規(guī)?;a(chǎn)的蛋白質(zhì)產(chǎn)品。

另一項Venus系列模型的創(chuàng)新應(yīng)用則是對某體外診斷頭部公司堿性磷酸酶(ALP)的改造項目。ALP 因高穩(wěn)定性和靈敏度被廣泛用作標(biāo)記酶,其活性越高,檢測靈敏度越高,從而能夠檢測到極低的生物標(biāo)志物,但提升ALP的活性一直是一個挑戰(zhàn)。Venus 系列模型成功優(yōu)化 ALP,使其分子活性超國際頭部公司產(chǎn)品 3 倍,為超敏檢測診斷(如心肌梗塞、阿爾茲海默癥)帶來巨大價值。目前,改造后的 ALP 已進入 200L 規(guī)模放大生產(chǎn)階段,標(biāo)志著 Venus 系列模型成功實現(xiàn)產(chǎn)業(yè)轉(zhuǎn)化。

未經(jīng)正式授權(quán)嚴禁轉(zhuǎn)載本文,侵權(quán)必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

上海交大發(fā)布蛋白質(zhì)設(shè)計模型,引入AI可高效精準(zhǔn)設(shè)計相關(guān)功能

經(jīng)過Venus系列模型設(shè)計的多款蛋白質(zhì)已經(jīng)實現(xiàn)了落地產(chǎn)業(yè)化。

AIGC圖片,來源:圖蟲

界面新聞記者 | 劉素楠

界面新聞編輯 | 彭朋

322日,上海交通大學(xué)洪亮教授團隊發(fā)布蛋白質(zhì)設(shè)計模型Venus,該團隊將AI與蛋白質(zhì)設(shè)計與改造相結(jié)合,建立了全球最大的蛋白質(zhì)數(shù)據(jù)集,基于該數(shù)據(jù)集訓(xùn)練的模型,可以精準(zhǔn)、高效地預(yù)測、設(shè)計蛋白質(zhì)的功能,把蛋白質(zhì)生產(chǎn)由緩慢的試錯變?yōu)?span>“高效率的精準(zhǔn)設(shè)計。

該成果配合行業(yè)領(lǐng)先的自動化設(shè)備,已經(jīng)進行產(chǎn)業(yè)化落地,把蛋白質(zhì)設(shè)計從原先的復(fù)雜科學(xué)變?yōu)槿缃竦?span>“簡單工程。

洪亮團隊建立的蛋白質(zhì)序列數(shù)據(jù)集Venus-PodVenus-Protein Outsize Dataset)含有近90億條蛋白質(zhì)序列,包含數(shù)億個功能標(biāo)簽,是全球數(shù)據(jù)規(guī)模最大、功能批注標(biāo)簽最多的數(shù)據(jù)集,也是另一行業(yè)知名模型——美國ESM-C模型訓(xùn)練用的21億蛋白質(zhì)序列的4倍體量。

該數(shù)據(jù)集包含36.2億條陸地微生物蛋白質(zhì)序列、26.4億條海洋微生物蛋白質(zhì)序列、24.3億條抗體蛋白質(zhì)序列、0.6億條病毒蛋白質(zhì)序列,覆蓋從常規(guī)地表生物到極端環(huán)境微生物的蛋白質(zhì)序列信息,尤其是配備的數(shù)億功能標(biāo)簽(蛋白質(zhì)工作的溫度、酸堿度、壓強等)。

洪亮表示,該數(shù)據(jù)集構(gòu)成了巨大的蛋白質(zhì)礦藏,使得人類有可能挖掘新的蛋白或者生物催化劑,助力生物醫(yī)藥和合成生物學(xué)的快速發(fā)展;其次,AI大模型有望通過海量數(shù)據(jù)的學(xué)習(xí)和掌握自然界蛋白質(zhì)的進化模式,為AI設(shè)計優(yōu)異的蛋白質(zhì)產(chǎn)品提供了寶貴的學(xué)習(xí)資料。

2024年,諾貝爾化學(xué)獎頒發(fā)給谷歌DeepMind團隊,該團隊利用AI技術(shù)精準(zhǔn)解析了蛋白質(zhì)序列到三維結(jié)構(gòu)的關(guān)系,解決了困擾生物學(xué)家長達50年的基本難題。

然而,一個現(xiàn)實的問題是:如果稍微改動蛋白質(zhì)的氨基酸序列,哪怕只是1%的微小改變,蛋白質(zhì)的整體結(jié)構(gòu)看似沒有發(fā)生明顯變化,但它的功能大概率會變差,甚至完全喪失。

換言之,要設(shè)計出一款成功的蛋白質(zhì)產(chǎn)品,不能只關(guān)注它的三維結(jié)構(gòu),而是要能成功預(yù)測和設(shè)計它的功能。

因此,洪亮教授團隊另辟蹊徑,不再執(zhí)著于蛋白質(zhì)的結(jié)構(gòu),而是直接瞄準(zhǔn)功能預(yù)測這一終極目標(biāo),將復(fù)雜的蛋白質(zhì)設(shè)計變成以需求為導(dǎo)向,配合少量實驗輸出結(jié)果的簡單過程。

我們訓(xùn)練了Venus(啟明星)系列模型,與DeepMind團隊的AlphaFold預(yù)測蛋白質(zhì)結(jié)構(gòu)不同,這個模型學(xué)習(xí)自然界蛋白質(zhì)序列的組織規(guī)則以及它與功能之間的關(guān)系,其預(yù)測蛋白質(zhì)突變功能的精度位居行業(yè)榜單之首。洪亮表示。

Venus系列模型具備兩大核心功能:“AI定向進化“AI挖酶。

所謂“AI定向進化是指 Venus系列模型可以對一個不盡如人意的蛋白質(zhì)產(chǎn)品的多種性能進行優(yōu)化,讓它成為一個六邊形戰(zhàn)士滿足應(yīng)用需求。

“AI挖酶則是指 Venus 系列模型基于其海量的未知功能蛋白質(zhì)數(shù)據(jù)集,可以海選超能力戰(zhàn)士,去精準(zhǔn)發(fā)掘滿足苛刻應(yīng)用需求的具備超常規(guī)功能的蛋白質(zhì),比如極度耐熱、極度耐酸、極度耐堿、極度耐胃腸消化等。

這些超常規(guī)功能的蛋白質(zhì)在生物技術(shù)、醫(yī)藥研發(fā)和工業(yè)生產(chǎn)中具有巨大的應(yīng)用潛力,能夠為相關(guān)領(lǐng)域帶來創(chuàng)新和突破。

與此同時,配合Venus系列模型的全球首款低通量大體積蛋白質(zhì)表達、純化與功能檢測自動化一體機,可在24小時內(nèi)不間斷地完成100余個蛋白質(zhì)的表達、純化與檢測任務(wù),較人力效率提高近10倍,將大大減少研發(fā)過程中的人力、物力和時間成本投入,顯著提高蛋白質(zhì)工程與合成生物學(xué)研究的效率。其宗旨就是設(shè)計AI化,實驗自動化,讓科研人員從繁瑣的設(shè)計和實驗中解放出來,他們只需要提出問題,AI和自動化來解決問題,最終將復(fù)雜的蛋白質(zhì)科學(xué)發(fā)現(xiàn)變成傻瓜相機式的簡單過程。

目前,經(jīng)過Venus系列模型設(shè)計的多款蛋白質(zhì)已經(jīng)實現(xiàn)了落地產(chǎn)業(yè)化。

以國內(nèi)生長激素龍頭金賽藥業(yè)的單域抗體耐堿性改造為例。提升蛋白質(zhì)的耐堿性歷來是一項極具挑戰(zhàn)性的工作,洪亮團隊借助該模型結(jié)合少量濕實驗閉環(huán)迭代驗證,不到一年將普通單域抗體耐堿性提升 4 倍,每年為金賽藥業(yè)節(jié)約上千萬元成本。該成果已實現(xiàn)多個批次 5000 升放大生產(chǎn),成為全球首款由大模型設(shè)計并規(guī)?;a(chǎn)的蛋白質(zhì)產(chǎn)品。

另一項Venus系列模型的創(chuàng)新應(yīng)用則是對某體外診斷頭部公司堿性磷酸酶(ALP)的改造項目。ALP 因高穩(wěn)定性和靈敏度被廣泛用作標(biāo)記酶,其活性越高,檢測靈敏度越高,從而能夠檢測到極低的生物標(biāo)志物,但提升ALP的活性一直是一個挑戰(zhàn)。Venus 系列模型成功優(yōu)化 ALP,使其分子活性超國際頭部公司產(chǎn)品 3 倍,為超敏檢測診斷(如心肌梗塞、阿爾茲海默癥)帶來巨大價值。目前,改造后的 ALP 已進入 200L 規(guī)模放大生產(chǎn)階段,標(biāo)志著 Venus 系列模型成功實現(xiàn)產(chǎn)業(yè)轉(zhuǎn)化。

未經(jīng)正式授權(quán)嚴禁轉(zhuǎn)載本文,侵權(quán)必究。