研究提出以文本驱动的3D医学图像分割基础模型

来源：上海交通大学发布时间：2026-03-10 10:04:23

上海交通大学研究提出引入多模态解剖学知识、以文本提示驱动的3D医学分割基础模型SAT（Segment Anything in radiology scans，driven by Text prompts），并在72个数据集组成的大规模验证集上验证了其有效性与通用性。

在数据层面，研究首先基于UMLS等多个来源，构建了覆盖6K+人体解剖学概念的多模态知识图谱。该图谱包含概念的详细文本描述，概念之间的多种语义关系，以及部分视觉样例与分割标注。同时整合72个公开数据集，构建大规模3D医学图像分割数据集SAT-DS，共计22186例3D图像与302033个分割标注，覆盖CT、MR与PET三种模态，人体8个主要部位的497个分割目标。

在方法层面，研究提出文本提示驱动的分割模型框架，采用“知识注入+分割训练”的两阶段流程：首先通过对比学习将6K+解剖学概念的多模态知识注入文本编码器，获得更准确、与视觉空间对齐的概念表征；随后以文本编码作为提示，结合3D图像的视觉特征解码生成分割预测。

研究基于SAT-DS训练了SAT-Pro（447M）与SAT-Nano（110M）。在497类整体结果上，与在每个数据集上单独训练的72个nnU-Net相比，SAT-Pro的整体表现相当，但参数规模减少80%以上，显著降低使用和部署成本；与交互式分割模型MedSAM相比，SAT-Pro在器官分割上取得显著优势，且可凭借文本提示实现全自动分割；与同时期工作BiomedParse（最早公开于2024年5月）相比，SAT-Pro在总体性能上明显领先，并支持更大规模的分割类别；外部验证显示，SAT在跨数据集场景下的泛化性。

作为基于文本提示的3D医疗图像分割基础模型，SAT的价值体现在：

- 构建高效灵活的分割基础模型，仅用单一模型即可在多种任务上媲美专用模型，大幅降低参数量和使用成本。

- 实现基于文本提示的全自动分割，避免了交互式模型如MedSAM对人工圈画的依赖。

- 证实了分割任务中的Scaling Law依然有效，扩大基础模型的参数量可提升内外部验证集上的性能。

- 证实了领域知识增强可有效提升分割模型的性能，尤其是在长尾类别上。

- 可作为大语言模型代理工具，通过文本无缝集成分割与定位能力，推动通用医疗智能发展。（信息来源：上海交通大学）

上一篇 哺乳动物发育大脑中神经元与免疫细胞动态的活体观察
下一篇 细胞超分辨成像新工具——单链超小荧光聚合物纳米点探针