界面新聞記者 | 劉素楠
界面新聞編輯 | 彭朋
3月22日,上海交通大學(xué)洪亮教授團隊發(fā)布蛋白質(zhì)設(shè)計模型Venus,該團隊將AI與蛋白質(zhì)設(shè)計與改造相結(jié)合,建立了全球最大的蛋白質(zhì)數(shù)據(jù)集,基于該數(shù)據(jù)集訓(xùn)練的模型,可以精準(zhǔn)、高效地預(yù)測、設(shè)計蛋白質(zhì)的功能,把蛋白質(zhì)生產(chǎn)由“緩慢的試錯”變?yōu)?span>“高效率的精準(zhǔn)設(shè)計”。
該成果配合行業(yè)領(lǐng)先的自動化設(shè)備,已經(jīng)進行產(chǎn)業(yè)化落地,把蛋白質(zhì)設(shè)計從原先的“復(fù)雜科學(xué)”變?yōu)槿缃竦?span>“簡單工程”。
洪亮團隊建立的蛋白質(zhì)序列數(shù)據(jù)集Venus-Pod(Venus-Protein Outsize Dataset)含有近90億條蛋白質(zhì)序列,包含數(shù)億個功能標(biāo)簽,是全球數(shù)據(jù)規(guī)模最大、功能批注標(biāo)簽最多的數(shù)據(jù)集,也是另一行業(yè)知名模型——美國ESM-C模型訓(xùn)練用的21億蛋白質(zhì)序列的4倍體量。
該數(shù)據(jù)集包含36.2億條陸地微生物蛋白質(zhì)序列、26.4億條海洋微生物蛋白質(zhì)序列、24.3億條抗體蛋白質(zhì)序列、0.6億條病毒蛋白質(zhì)序列,覆蓋從常規(guī)地表生物到極端環(huán)境微生物的蛋白質(zhì)序列信息,尤其是配備的數(shù)億功能標(biāo)簽(蛋白質(zhì)工作的溫度、酸堿度、壓強等)。
洪亮表示,該數(shù)據(jù)集構(gòu)成了巨大的“蛋白質(zhì)礦藏”,使得人類有可能挖掘新的蛋白或者生物催化劑,助力生物醫(yī)藥和合成生物學(xué)的快速發(fā)展;其次,AI大模型有望通過海量數(shù)據(jù)的學(xué)習(xí)和掌握自然界蛋白質(zhì)的進化模式,為AI設(shè)計優(yōu)異的蛋白質(zhì)產(chǎn)品提供了寶貴的學(xué)習(xí)資料。
2024年,諾貝爾化學(xué)獎頒發(fā)給谷歌DeepMind團隊,該團隊利用AI技術(shù)精準(zhǔn)解析了蛋白質(zhì)序列到三維結(jié)構(gòu)的關(guān)系,解決了困擾生物學(xué)家長達50年的基本難題。
然而,一個現(xiàn)實的問題是:如果稍微改動蛋白質(zhì)的氨基酸序列,哪怕只是1%的微小改變,蛋白質(zhì)的整體結(jié)構(gòu)看似沒有發(fā)生明顯變化,但它的功能大概率會變差,甚至完全喪失。
換言之,要設(shè)計出一款成功的蛋白質(zhì)產(chǎn)品,不能只關(guān)注它的三維結(jié)構(gòu),而是要能成功預(yù)測和設(shè)計它的功能。
因此,洪亮教授團隊“另辟蹊徑”,不再執(zhí)著于蛋白質(zhì)的結(jié)構(gòu),而是直接瞄準(zhǔn)“功能預(yù)測”這一終極目標(biāo),將復(fù)雜的蛋白質(zhì)設(shè)計變成以需求為導(dǎo)向,配合少量實驗輸出結(jié)果的簡單過程。
“我們訓(xùn)練了Venus(啟明星)系列模型,與DeepMind團隊的AlphaFold預(yù)測蛋白質(zhì)結(jié)構(gòu)不同,這個模型學(xué)習(xí)自然界蛋白質(zhì)序列的組織規(guī)則以及它與功能之間的關(guān)系,其預(yù)測蛋白質(zhì)突變功能的精度位居行業(yè)榜單之首。”洪亮表示。
Venus系列模型具備兩大核心功能:“AI定向進化”與“AI挖酶”。
所謂“AI定向進化”是指 Venus系列模型可以對一個不盡如人意的蛋白質(zhì)產(chǎn)品的多種性能進行優(yōu)化,讓它成為一個“六邊形戰(zhàn)士”滿足應(yīng)用需求。
而“AI挖酶”則是指 Venus 系列模型基于其海量的未知功能蛋白質(zhì)數(shù)據(jù)集,可以“海選超能力戰(zhàn)士”,去精準(zhǔn)發(fā)掘滿足苛刻應(yīng)用需求的具備超常規(guī)功能的蛋白質(zhì),比如極度耐熱、極度耐酸、極度耐堿、極度耐胃腸消化等。
這些超常規(guī)功能的蛋白質(zhì)在生物技術(shù)、醫(yī)藥研發(fā)和工業(yè)生產(chǎn)中具有巨大的應(yīng)用潛力,能夠為相關(guān)領(lǐng)域帶來創(chuàng)新和突破。
與此同時,配合Venus系列模型的全球首款低通量大體積蛋白質(zhì)表達、純化與功能檢測自動化一體機,可在24小時內(nèi)不間斷地完成100余個蛋白質(zhì)的表達、純化與檢測任務(wù),較人力效率提高近10倍,將大大減少研發(fā)過程中的人力、物力和時間成本投入,顯著提高蛋白質(zhì)工程與合成生物學(xué)研究的效率。其宗旨就是“設(shè)計AI化,實驗自動化”,讓科研人員從繁瑣的設(shè)計和實驗中解放出來,他們只需要提出問題,AI和自動化來解決問題,最終將復(fù)雜的蛋白質(zhì)科學(xué)發(fā)現(xiàn)變成“傻瓜相機式”的簡單過程。
目前,經(jīng)過Venus系列模型設(shè)計的多款蛋白質(zhì)已經(jīng)實現(xiàn)了落地產(chǎn)業(yè)化。
以國內(nèi)生長激素龍頭金賽藥業(yè)的單域抗體耐堿性改造為例。提升蛋白質(zhì)的耐堿性歷來是一項極具挑戰(zhàn)性的工作,洪亮團隊借助該模型結(jié)合少量濕實驗閉環(huán)迭代驗證,不到一年將普通單域抗體耐堿性提升 4 倍,每年為金賽藥業(yè)節(jié)約上千萬元成本。該成果已實現(xiàn)多個批次 5000 升放大生產(chǎn),成為全球首款由大模型設(shè)計并規(guī)?;a(chǎn)的蛋白質(zhì)產(chǎn)品。
另一項Venus系列模型的創(chuàng)新應(yīng)用則是對某體外診斷頭部公司堿性磷酸酶(ALP)的改造項目。ALP 因高穩(wěn)定性和靈敏度被廣泛用作標(biāo)記酶,其活性越高,檢測靈敏度越高,從而能夠檢測到極低的生物標(biāo)志物,但提升ALP的活性一直是一個挑戰(zhàn)。Venus 系列模型成功優(yōu)化 ALP,使其分子活性超國際頭部公司產(chǎn)品 3 倍,為超敏檢測診斷(如心肌梗塞、阿爾茲海默癥)帶來巨大價值。目前,改造后的 ALP 已進入 200L 規(guī)模放大生產(chǎn)階段,標(biāo)志著 Venus 系列模型成功實現(xiàn)產(chǎn)業(yè)轉(zhuǎn)化。