Scientists leverage AI to design protein dataset

International Affairs Division 2025-03-25 15

上海的科学家们利用人工智能在蛋白质设计方面取得了突破,建立了世界上最大的蛋白质序列数据集,并开发了能够对具有特定功能的蛋白质进行靶向修饰和选择的模型。

 

据上海交通大学的研究人员称,这一进步有可能大大减少工业蛋白质修饰所涉及的时间和成本。

 

蛋白质在从制药到绿色制造的各行各业中发挥着关键作用。然而,天然蛋白质通常需要改性才能承受温度变化和酸度水平等环境因素。例如,如果一种蛋白质用于洗衣粉,它必须在热水和冷水中发挥作用,才能有效分解污渍。

传统上,修饰蛋白质需要数千次试错实验,这是一个昂贵且耗时的过程。上海团队的方法通过用 AI 驱动的设计取代试错来改变这一点,将研发时间从 2 到 5 年缩短到短短 6 年。

他们的技术允许进行精确改性以增强特定特性,例如极强的耐热性、碱性稳定性和抗消化能力。该方法对生物技术、制药和工业生产具有广泛的影响。

这一突破已经与自动化设备一起实现工业化,使蛋白质设计更加高效。

该研究的核心是 Venus-Protein Outsize 数据库 (Venus-Pod),其中包含超过 90 亿个蛋白质序列,涵盖广泛的生物体,包括极端微生物,即在恶劣条件下茁壮成长的微生物。

该数据集包括 36.2 亿个陆地微生物蛋白序列、29.4 亿个海洋微生物序列、24.3 亿个抗体序列和 6000 万个病毒蛋白序列。值得注意的是,其中 5 亿个标有功能标签,表明其最佳工作条件,例如温度、压力、酸度和碱度。

 

据该团队的首席科学家 Hong Liang 称,研究人员使用 Venus-Pod 训练了 Venus 系列模型,该模型在预测和设计蛋白质功能方面位居行业排行榜的首位。

Venus 模型有两个核心功能:AI 定向的蛋白质进化和 AI 驱动的筛选。

“第一个研究优化了表现不佳的蛋白质以满足特定的应用要求,而第二个研究则精确识别了具有特殊特性的蛋白质,例如极热或胃肠道抵抗力,”Hong 说。

该团队还开发了他们所说的世界上第一台能够进行大体积蛋白质表达、纯化和功能测试的集成机器。该系统可在 24 小时内完成 100 多项任务,比手动方法快近 10 倍,在加速蛋白质工程研究的同时降低了劳动力和资源成本。

在过去的两年里,Venus 模型成功设计了多种蛋白质,这些蛋白质现在正朝着工业化迈进。

例如,在阿尔茨海默病的早期诊断中,研究人员优化了一种称为碱性磷酸酶的酶,使其活性水平是全球最佳产品的三倍,从而可以检测极低浓度的生物标志物。改性后的 ALP 已进入 200 升放大生产阶段,标志着向商业应用迈出了重要一步。

研究人员表示,这一成就可能对需要超灵敏检测的诊断检测项目产生重大影响。