上海交通大学研究提出引入多模态解剖学知识、以文本提示驱动的3D医学分割基础模型SAT(Segment Anything in radiology scans,driven by Text prompts),并在72个数据集组成的大规模验证集上验证了其有效性与通用性。
在数据层面,研究首先基于UMLS等多个来源,构建了覆盖6K+人体解剖学概念的多模态知识图谱。该图谱包含概念的详细文本描述,概念之间的多种语义关系,以及部分视觉样例与分割标注。同时整合72个公开数据集,构建大规模3D医学图像分割数据集SAT-DS,共计22186例3D图像与302033个分割标注,覆盖CT、MR与PET三种模态,人体8个主要部位的497个分割目标。
在方法层面,研究提出文本提示驱动的分割模型框架,采用“知识注入+分割训练”的两阶段流程:首先通过对比学习将6K+解剖学概念的多模态知识注入文本编码器,获得更准确、与视觉空间对齐的概念表征;随后以文本编码作为提示,结合3D图像的视觉特征解码生成分割预测。
研究基于SAT-DS训练了SAT-Pro(447M)与SAT-Nano(110M)。在497类整体结果上,与在每个数据集上单独训练的72个nnU-Net相比,SAT-Pro的整体表现相当,但参数规模减少80%以上,显著降低使用和部署成本;与交互式分割模型MedSAM相比,SAT-Pro在器官分割上取得显著优势,且可凭借文本提示实现全自动分割;与同时期工作BiomedParse(最早公开于2024年5月)相比,SAT-Pro在总体性能上明显领先,并支持更大规模的分割类别;外部验证显示,SAT在跨数据集场景下的泛化性。
作为基于文本提示的3D医疗图像分割基础模型,SAT的价值体现在:
- 构建高效灵活的分割基础模型,仅用单一模型即可在多种任务上媲美专用模型,大幅降低参数量和使用成本。
- 实现基于文本提示的全自动分割,避免了交互式模型如MedSAM对人工圈画的依赖。
- 证实了分割任务中的Scaling Law依然有效,扩大基础模型的参数量可提升内外部验证集上的性能。
- 证实了领域知识增强可有效提升分割模型的性能,尤其是在长尾类别上。
- 可作为大语言模型代理工具,通过文本无缝集成分割与定位能力,推动通用医疗智能发展。(信息来源:上海交通大学)