生成式预训练模型在自然语言处理(NLP)和计算机视觉等领域取得了显著的成功。

文本是由文字组成的,细胞可以用基因来表征。

NLP 和单细胞生物学之间的另一个核心相似之处是,用于训练的公开可用的单细胞 RNA 测序(scRNA-seq)数据的规模庞大且不断增长。

NLP 模型是否也能理解单细胞生物学的内在逻辑并发展「涌现思维」?

近日,来自加拿大多伦多大学和彼得·蒙克心脏中心(Peter Munk Cardiac Centre)的研究人员,通过利用呈指数增长的单细胞测序数据,首次尝试对超过 1000 万个细胞进行生成预训练来构建单细胞基础模型。

这是第一个基于单细胞生物学的大型语言模型。

有推特网友表示:「这是令人印象深刻的工作,并举例说明了生成式人工智能时代的融合。」

还有网友说:「我们能说这就结束了表观遗传学的研究吗?」

研究人员证明了生成式预训练 Transformer scGPT 可以有效地捕获对基因和细胞有意义的生物学见解。此外,该模型可以很容易地进行微调,以在各种下游任务中实现最先进的性能,包括 multi-batch 整合、多组学整合、细胞类型注释、遗传扰动预测和基因网络推断。

scGPT 代码库可在 https://github.com/bowang-lab/scGPT 上公开获得。

该研究以「scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI」为题,于 2023 年 5 月 发布在 BioRxiv 预印平台。

从 GPT 中汲取灵感

生成式预训练模型最近在许多领域取得了前所未有的成功。

但目前单细胞研究中基于机器学习的发现相当分散,特定模型专用于特定分析任务。由于测序能力和研究问题的范围,每项研究中使用的数据集的广度和规模通常也有限。这需要在大规模数据上进行预训练的基础模型,以实现对单细胞生物学的一般理解。

虽然单细胞生物学中生成预训练的可行性在很大程度上仍未得到探索,但可以从其他领域汲取关于建模和以数据为中心的观点的灵感。

scGPT 在下游任务中表现最佳

在此,研究人员首次尝试通过对超过 1000 万个细胞进行生成预训练来构建单细胞基础模型 scGPT。研究证明预训练模型在基因和细胞水平上捕获了有意义的生物学见解。通过在少量学习设置中进行微调,该模型在广泛的下游任务上实现了最先进的性能。

scGPT  首先对来自细胞图谱的大规模 scRNA-seq 数据进行生成训练。对于下游应用,可以根据新数据微调预训练模型权重。scGPT 的核心组件包含带有用于生成训练的专门注意掩码的堆叠 Transformer 块。将 scGPT 应用于各种任务,包括多组学整合、batch 校正、细胞类型注释、遗传扰动预测和基因网络推理。输入包含三层信息:基因标记、表达值和条件标记。

图示:scGPT 模型示意图。(来源:论文)

通过在少量学习设置中进行微调,scGPT 在各种下游任务上实现了最先进的性能,包括 batch 校正、多组学整合、细胞类型注释、遗传扰动预测和基因调控网络推断。

整合多个 scRNA-seq 数据并进行 batch 校正

scGPT 以 scVI(一种深度学习模型)、Harmony 和 Seurat 为基准,整合了两个数据集:PBMC(2 batches)和 Immune Human(10 batches)。

图示:使用 scVI、Seurat Seurat 和 Harmony Harmony 对 Immune Human(10 batches)和 PBMC 10K(2 batches)数据集进行 batch 整合时细胞类型聚类性能的基准测试。学习细胞嵌入的 UMAP 图按细胞类型着色。(来源:论文)

根据多项生物保护指标评估,scGPT 表现最佳(这里的目标是尽量减少相同细胞类型的细胞扩散)。scGPT(深粉色)始终高于其他标准。尽管如此,所有工具似乎总体上都表现不错。

图示:scGPT 模型与其他基准方法在 AvgBIO 上的比较、详细的生物保护指标(NMIcell、ARIcell、ASWcell)和总分。

细胞类型标注

对于这项任务,预训练的 scGPT 模型使用交叉熵损失对来自人类胰腺细胞新参考数据集的真实标签进行了微调。

然后,它的任务是识别另一个人类胰腺数据集上的细胞类型。

图示:hPancreas 查询集中按真实细胞类型着色的细胞的 UMAP 可视化。(来源:论文)

ChatGPT 也可以通过文献浏览来进行细胞类型分配,但是,这里有一个非常重要的区别,scGPT 在某种意义上与文献浏览相反,因为它是全自动的。

遗传扰动预测

两个 Perturb-Seq 数据集,在这些数据集上评估了扰动后预测值和相应的真实表达值之间的相关性。

表 1:扰动预测结果。(来源:论文)

scGPT 表现不错,但(再次)所有测试工具确实具有相似的性能。

多组学整合

每种组学类型(例如基因表达、染色质可及性、蛋白质丰度)对应于 NLP 中的不同语言。

图示:使用 scGLUE 和 Seurat v4 在 10x Multiome PBMC数据集(配对数据设置)上进行细胞类型聚类任务的 few-shot scGPT 模型基准测试。(来源:论文)

scGPT 表现很好(通过多种生物学论证),例如,它是为 CD8 naive T 生成单独簇的唯一方法。

基因调控网络推断

在此任务中,对 scGPT 进行了测试,以对功能相关的基因进行分组,并将不同的基因与其基因嵌入网络区分开来。

在此针对已知生物学验证 scGPT 的基因嵌入网络,然后探索其在基因程序发现中的适用性。

图示:用于基因调控网络推理的基因嵌入。(来源:论文)

研究表明 scGPT 已经从零样本(zero- shot)设置中的生成预训练中学习到了有意义的生物模式。更具体地说,研究证明了 scGPT 通过利用预训练模型在新数据集上执行无监督基因程序发现以及其他细胞级分析任务的能力。这一尝试是在基础模型的协助下,向单细胞领域的知识发现迈出的第一步。

未来展望

总之,scGPT 是第一个利用从超过 1000 万个单细胞数据中学习的预训练 Transformer 的基础模型。

研究人员特此发布 scGPT 代码库和预训练模型。希望这能提供一个统一的框架,以帮助研究人员轻松地使预训练模型适应其手头的任务。

对于未来,研究人员表示:「我们计划在更多样性、大规模的数据集上进行预训练,包括多组学数据、空间组学和疾病状况。在因果发现的预训练阶段结合扰动和时间数据也很有趣。

更重要的是,我们希望在更广泛的具有生物学意义的任务上验证预训练模型,以理解和解释预训练模型学到了什么。我们还旨在探索单细胞数据的上下文指令学习。目标是拥有一个预训练模型,该模型无需微调即可理解零样本设置中的不同任务和上下文。因此,scGPT 是使用大规模预训练基础模型来理解细胞生物学背景和细微差别的第一步。我们设想预训练范式可以很容易地整合到单细胞研究中,并作为利用呈指数增长的细胞图谱中的现有知识进行新发现的基础。」

论文链接:https://www.biorxiv.org/content/10.1101/2023.04.30.538439v1
参考内容:https://twitter.com/simocristea/status/1654581096498229250
================================================================================================================
2023年7月,该研究团队首次尝试对超过 3300 万个细胞进行生成预训练来更新 scGPT。
论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文:「令人兴奋的 scGPT 更新:自 4 月份发布以来,受到社区的极大关注,我们很高兴地宣布单细胞多组学数据的基础模型 scGPT 的首次重大更新。」
更新后的研究以「scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI」为题,于 2023 年 7 月 2 日发布在 bioRxiv 预印平台上。
论文地址:https://biorxiv.org/content/10.1101/2023.04.30.538439
开源代码和模型:https://github.com/bowang-lab/scGPT
详细教程:https://scgpt.readthedocs.io/en/latest/
scGPT 更新的几个亮点
此次更新的亮点包括:
  • 推出第一个针对单细胞多组学数据的 GPT 式基础模型,该模型在超过 3300 万个人类细胞图谱数据上进行了预训练。

  • 其通才方法使一种模型能够完成单细胞分析中的多项任务,包括多组学综合分析和扰动预测。

  • 使用学习的注意力权重和基因嵌入发现特定于各种条件的基因间相互作用。

  • 揭示了随着数据量的增加,模型性能持续增强的 scaling 定律。

  • scGPT model Zoo(参见 github)现在提供多种针对各种实体器官的预训练基础模型和全面的泛癌模型。使用最合适的基础模型开始探索你的数据。

有推特网友评论:「绝对惊人的……好东西!」
怎么做到的呢?
在此,研究人员首次尝试通过对超过 3300 万个细胞进行生成预训练来构建单细胞基础模型 scGPT。研究人员引入新技术来解决大规模单细胞组学数据预训练的方法和工程挑战。
此次更新的 scGPT 模型是在超过 3300 万个细胞进行生成预训练的,而上一次是「超 1000 万个细胞」。
那是怎么做到的呢?
为了处理大规模数据,研究人员使用内存数据结构,可以快速访问存储数百个数据集。专门针对非序列组学数据建立了统一的生成预训练工作流程,并调整 Transformer 架构以同时学习细胞和基因表示。此外,还提供具有特定任务目标的通用管道,用于模型微调,旨在促进预训练模型在一系列下游任务中的应用。
此次更新整合了社区反馈并利用了 CELLxGENE 最新发布的数据。更新的 scGPT 拥有更大的预训练数据和更稳健的模型,并扩展了应用任务的范围。
研究人员从 CELLxGENE 网站检索了超过 1030 万个人类 PBMC scRNA-seq 样本,用于基础模型预训练。通过对生物体(即智人)、组织(即血液、骨髓)和疾病进行过滤,从 CELLxGENE 中收集了总共 65 个数据集。

数据地址:https://cellxgene.cziscience.com/

更新的 scGPT 通过三个关键方面展示了单细胞基础模型的变革潜力。
  • 首先,scGPT 代表了第一个大规模生成基础模型,可实现跨各种下游任务的迁移学习。通过在细胞类型注释、遗传扰动预测、batch 校正和多组学整合方面实现最先进的性能,展示了「普遍预训练,按需微调」作为单细胞组学计算应用的通用解决方案。值得注意的是,scGPT 是唯一可以整合包括 scATAC-seq 数据在内的多个单细胞组学的基础模型。
  • 其次,通过比较微调模型和原始预训练模型之间的基因嵌入和注意力权重,scGPT 揭示了针对特定于各种条件(例如细胞类型和扰动状态)的基因-基因相互作用的有价值的生物学见解。
  • 第三,我们的观察揭示了一个 scaling 定律:较大的预训练数据量可以产生优异的预训练嵌入,并进一步提高下游任务的性能。这一发现突显了基础模型可以随着研究界可用测序数据的扩展而不断改进的令人兴奋的前景。
基于这些发现,采用预先训练的基础模型将极大地扩展研究者对细胞生物学的理解,并为未来的发现奠定坚实的基础。scGPT 模型和工作流程的发布旨在增强和加速这些领域及其他领域的研究。
更新版 scGPT:在超 3300 万个细胞上进行预训练
scGPT 作为单细胞领域的第一个基础模型,采用生成预训练方法。核心模型包含具有多头注意力的堆叠 Tansformer 层,可同时生成细胞和基因嵌入。scGPT 包含两个阶段:对大型细胞图集进行初始通用预训练,以及针对特定应用对较小数据集进行后续微调(图 1A-C)。
在预训练阶段,引入了专门设计的注意力掩模和生成训练管道,以自监督的方式训练 scGPT,以共同优化细胞和基因表示。这项创新技术成功解决了基因表达的非序列性质,以适应序列预测的 NLG 框架。
在训练过程中,模型逐渐学习根据细胞状态或基因表达线索生成细胞的基因表达。
在微调阶段,预训练模型可以适应新的数据集和特定任务。研究人员提供灵活的微调流程,适用于单细胞研究中的各种重要下游任务。

图 1:scGPT 模型概述。(来源:论文)

为了收集多样化和广泛的测序数据以用于 scGPT 的自监督预训练,研究人员收集了通过 CELLxGENE 集合获得的 3300 万条正常(非疾病)条件下人类细胞的 scRNA-seq 数据(图 1D) 。这个全面数据集涵盖了来自 51 个器官/组织和 441 项研究的多种细胞类型,提供了整个人体细胞异质性的丰富表现。
预训练后,使用 UMAP 可视化技术将 3300 万个数据中 10% 的人类细胞上的 scGPT 细胞嵌入可视化(图 1E)。由此产生的 UMAP 图表现出很好的清晰度,局部区域和簇的细胞类型通过不同的颜色准确表示。鉴于数据集中包含 400 多项研究,这证明了预训练在减轻技术批次效应方面的卓越能力。
研究结果表明,scGPT 可以有效地提炼有关基因和细胞的关键生物学见解。通过进一步适应迁移学习,可以优化 scGPT,以以在各种下游任务中实现最先进的性能,包括 multi-batch 整合、多组学整合、细胞类型注释、遗传扰动预测和基因网络推断。
对于未来,研究人员计划在更大规模、更多样化的数据集上进行预训练。

参考内容:https://twitter.com/BoWang87/status/1676056025072320512