SAT：开源3D医学大模型

近日，上海交通大学与上海人工智能实验室联合团队发布3D医学图像分割大模型SAT（Segment Anything in radiology scans, driven by Text prompts），在3D医学图像（CT、MR、PET）上，基于文本提示实现对人体497种器官/病灶的通用分割。并做出了以下三点主要贡献：

该研究首次探索将人体解剖学知识注入文本编码器，以精准编码解剖学术语，实现了通过文本提示的放射学影像通用医疗分割模型。
该研究构建了第一个包含6K+人体解剖学概念的多模态医疗知识图谱。同时，构建了当前最大规模的3D医学图像分割数据集，名为SAT-DS，汇集了72个公开数据集，来自CT、MR和PET三种模态的22K+图像，302K+分割标注，涵盖了人体8个主要部位中的497个分割目标。
基于SAT-DS，该研究训练了两款不同大小的模型：SAT-Pro（447M参数）和SAT-Nano（110M参数），并设计实验从多个角度验证了SAT的价值：SAT的性能与72个nnU-Nets专家模型相当（在每个数据集上单独调参和优化，共约2.2B参数），并在域外数据上表现出更强的泛化能力；SAT可以作为一个基于大规模数据预训练的基础分割模型，通过下游微调迁移到特定任务时，可以表现出比nnU-Nets更好的性能；此外，与基于box提示的MedSAM对比，SAT基于文本提示可以实现更精准、更高效的分割；最后，在域外的临床数据上，研究团队展示了SAT可以被用作大语言模型的代理工具，在报告生成等任务中直接赋予后者定位和分割的能力。

多模态知识图谱：为了实现精准编码解剖学术语，研究团队首先收集了一个包含6K+人体解剖学概念的多模态知识图谱，其内容来自于三个来源：

Unified Medical Language System（UMLS）是由美国国家医学图书馆构建的生物医学字典。研究团队从中提取了近230K的生物医学概念与定义，以及涵盖1M+条相互关系的知识图谱。
网络上的权威解剖学知识。研究团队筛选了6502个人体解剖学概念，并借助检索增强的大语言模型从网络上检索相关信息，获取了6K+概念与定义，涵盖了38K+解剖结构相互关系的知识图谱。
公开的分割数据集。研究团队收集了大规模的公开3D医学图像分割数据集，将分割区域通过解剖学概念（类别标签）与上述文本知识库中的知识对应连接，提供视觉知识对照。

10183219-2024-07-10T10:32:16.png
多模态人体解剖学知识图谱。

SAT-DS：为了训练通用分割模型，研究团队构建了领域内最大规模的3D医学图像分割数据集合SAT-DS。特别的，72个多样的公开分割数据集被收集并整理，总计包括22186例3D图像，302033个分割标注，来自CT、MR和PET三种模态，以及涵盖人体8个主要区域的497个分割类别（解剖学结构或病灶）。

为了尽可能降低异构数据集间的差异，研究团队对不同数据集间的方向、体素间距、灰度值等图像属性进行了标准化，用统一的解剖学术语系统命名了不同数据集中的分割类别。

10183137-2024-07-10T10:31:35.png

论文：https://arxiv.org/abs/2312.17183
代码：https://github.com/zhaoziheng/SAT
数据：https://github.com/zhaoziheng/SAT-DS/

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅