近日,上海交通大学与上海人工智能实验室联合团队发布3D医学图像分割大模型SAT(Segment Anything in radiology scans, driven by Text prompts),在3D医学图像(CT、MR、PET)上,基于文本提示实现对人体497种器官/病灶的通用分割。并做出了以下三点主要贡献:

  1. 该研究首次探索将人体解剖学知识注入文本编码器,以精准编码解剖学术语,实现了通过文本提示的放射学影像通用医疗分割模型。
  2. 该研究构建了第一个包含6K+人体解剖学概念的多模态医疗知识图谱。同时,构建了当前最大规模的3D医学图像分割数据集,名为SAT-DS,汇集了72个公开数据集,来自CT、MR和PET三种模态的22K+图像,302K+分割标注,涵盖了人体8个主要部位中的497个分割目标。
  3. 基于SAT-DS,该研究训练了两款不同大小的模型:SAT-Pro(447M参数)和SAT-Nano(110M参数),并设计实验从多个角度验证了SAT的价值:SAT的性能与72个nnU-Nets专家模型相当(在每个数据集上单独调参和优化,共约2.2B参数),并在域外数据上表现出更强的泛化能力;SAT可以作为一个基于大规模数据预训练的基础分割模型,通过下游微调迁移到特定任务时,可以表现出比nnU-Nets更好的性能;此外,与基于box提示的MedSAM对比,SAT基于文本提示可以实现更精准、更高效的分割;最后,在域外的临床数据上,研究团队展示了SAT可以被用作大语言模型的代理工具,在报告生成等任务中直接赋予后者定位和分割的能力。

多模态知识图谱:为了实现精准编码解剖学术语,研究团队首先收集了一个包含6K+人体解剖学概念的多模态知识图谱,其内容来自于三个来源:

  1. Unified Medical Language System(UMLS)是由美国国家医学图书馆构建的生物医学字典。研究团队从中提取了近230K的生物医学概念与定义,以及涵盖1M+条相互关系的知识图谱。
  2. 网络上的权威解剖学知识。研究团队筛选了6502个人体解剖学概念,并借助检索增强的大语言模型从网络上检索相关信息,获取了6K+概念与定义,涵盖了38K+解剖结构相互关系的知识图谱。
  3. 公开的分割数据集。研究团队收集了大规模的公开3D医学图像分割数据集,将分割区域通过解剖学概念(类别标签)与上述文本知识库中的知识对应连接,提供视觉知识对照。

10183219-2024-07-10T10:32:16.png
多模态人体解剖学知识图谱。

SAT-DS:为了训练通用分割模型,研究团队构建了领域内最大规模的3D医学图像分割数据集合SAT-DS。特别的,72个多样的公开分割数据集被收集并整理,总计包括22186例3D图像,302033个分割标注,来自CT、MR和PET三种模态,以及涵盖人体8个主要区域的497个分割类别(解剖学结构或病灶)。

为了尽可能降低异构数据集间的差异,研究团队对不同数据集间的方向、体素间距、灰度值等图像属性进行了标准化,用统一的解剖学术语系统命名了不同数据集中的分割类别。

10183137-2024-07-10T10:31:35.png

论文:https://arxiv.org/abs/2312.17183
代码:https://github.com/zhaoziheng/SAT
数据:https://github.com/zhaoziheng/SAT-DS/