EvoDiff:一种新型的蛋白质生成AI
蛋白质是在体内执行关键细胞功能的天然分子,是所有疾病的基石。表征蛋白质可以揭示疾病的机制,包括减缓疾病或可能逆转疾病的方法,而创造蛋白质可以导致全新类别的药物和治疗方法。
但目前在实验室中设计蛋白质的过程是昂贵的 - 无论是从计算还是人力资源的角度来看。它需要提出一种蛋白质结构,可以在体内合理地执行特定任务,然后找到一个蛋白质序列 - 构成蛋白质的氨基酸序列 - 可能“折叠”到该结构中。(蛋白质必须正确折叠成三维形状才能执行其预期功能。
它不一定非要这么复杂。
本周,Microsoft推出了一个通用框架EvoDiff,该公司声称可以在给定蛋白质序列的情况下生成“高保真”,“多样化”的蛋白质。与其他蛋白质生成框架不同,EvoDiff不需要有关目标蛋白质的任何结构信息,从而省去了通常最费力的步骤。
EvoDiff以开源形式提供,可用于为新的疗法和药物输送方法以及用于工业化学反应的新酶创建酶,Microsoft高级研究员Kevin Yang说。
“我们设想EvoDiff将把蛋白质工程的能力从结构功能范式扩展到可编程的序列优先设计,”EvoDiff的共同创造者之一Yang在电子邮件采访中告诉TechCrunch。“通过EvoDiff,我们证明了我们实际上可能不需要结构,而是'蛋白质序列就是你所需要的'来控制地设计新的蛋白质。
EvoDiff 框架的核心是一个 6.4 亿个参数模型,该模型基于来自所有不同物种和蛋白质功能类别的数据进行训练。(“参数”是从训练数据中学习的AI模型的一部分,本质上定义了模型在问题上的技能 - 在这种情况下是生成蛋白质。用于训练模型的数据来自用于序列比对的OpenFold数据集和UniRef50,UniProt的数据子集,UniProt是由UniProt联盟维护的蛋白质序列和功能信息数据库。
EvoDiff是一种扩散模型,在架构上类似于许多现代图像生成模型,如稳定扩散和DALL-E 2。EvoDiff学习如何逐渐从几乎完全由噪声组成的起始蛋白质中减去噪声,使其更接近蛋白质序列 - 缓慢地,一步一步地。
Microsoft EvoDiff
EvoDiff产生蛋白质的过程。图片来源:Microsoft EvoDiff
扩散模型越来越多地应用于图像生成以外的领域,从为EvoDiff等新型蛋白质设计,到创作音乐甚至合成语音。
“如果从EvoDiff中带走一件事,我认为我们可以 - 并且应该 - 通过序列进行蛋白质生成的想法,因为我们能够实现的通用性,规模和模块化,”高级研究员Ava Amini Microsoft,EvoDiff的另一位共同贡献者,通过电子邮件说。“我们的扩散框架使我们能够做到这一点,并控制我们如何设计这些蛋白质以满足特定的功能目标。
对于Amini来说,EvoDiff不仅可以创造新的蛋白质,还可以填补现有蛋白质设计中的“空白”。例如,如果蛋白质的一部分与另一种蛋白质结合,该模型可以在该部分周围生成满足一组标准的蛋白质氨基酸序列。
由于EvoDiff在“序列空间”而不是蛋白质结构中设计蛋白质,因此它还可以合成最终不会折叠成最终三维结构的“无序蛋白质”。像正常功能的蛋白质一样,无序蛋白质在生物学和疾病中起着重要作用,如增强或减少其他蛋白质活性。
现在,应该指出的是,EvoDiff背后的研究还没有经过同行评审 - 至少现在还没有。Microsoft的数据科学家Sarah Alamdari为该项目做出了贡献,她承认,在框架可以商业化之前,还有“更多的扩展工作”要做。
“这只是一个6.4亿个参数的模型,如果我们扩大到数十亿个参数,我们可能会看到生成质量的提高,”Alandari通过电子邮件说。“虽然我们展示了一些粗粒度策略,但为了实现更细粒度的控制,我们希望根据文本,化学信息或其他方式来指定所需的功能,从而对EvoDiff进行调节。
下一步,EvoDiff团队计划测试模型在实验室中产生的蛋白质,以确定它们是否可行。如果他们成为这样,他们将开始研究下一代框架。