近日,温州肯恩大学高志强教授团队与新加坡国立大学周志颖教授团队合作的论文《Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation》被计算机视觉顶会CVPR 2025主会接收。该研究有效解决了医学图像合成中行业难题,为AI辅助医疗诊断提供了新思路。
CVPR(国际计算机视觉与模式识别会议)是计算机视觉领域全球公认的Top-1会议,被中国计算机学会列为人工智能领域最高级别CCF-A类会议。据谷歌学术最新排名,CVPR影响力仅次于《Nature》,位列全球第二。本届会议论文接收率仅22.1%,创近五年新低,竞争激烈程度可见一斑。
破解医学影像“数据荒”的探索
在医学图像分析领域,比如 CT 扫描、内窥镜检查或皮肤病筛查,医生往往需要手动圈出病灶、标注肿瘤,以便训练AI模型进行识别。这一过程既费时、又依赖专业知识,尤其在面对罕见病或数据隐私限制时,高质量的标注数据往往难以获取,从而严重制约了医学 AI 模型的训练效果与临床落地。
“这正是我们启动这项研究的初衷。”高志强教授表示,长期以来,高质量医学影像数据的匮乏是业内普遍面临的挑战。他指出,虽然扩散模型在生成图像方面表现出色,但在医学影像生成任务中,仅使用分割掩码作为条件的方法生成的图像往往缺乏真实感和结构细节,导致AI模型学得不够“扎实”。
高志强教授团队讨论中
在这种背景下,温州肯恩大学与新加坡国立大学展开合作,集合了双方在医学经验与计算建模方面的优势。新加坡团队提出将真实图片与掩码共同作为输入的思路,并与温肯团队深入讨论,明确了“噪声一致性损失函数”(Noise Consistency Loss)的方案。温肯团队从机器学习角度出发,为该方案提供了理论和技术优化,进一步强化了其研究贡献——提升生成图像的逼真性与多样性。这场跨国、跨学科的思维碰撞,最终促成了“噪声一致性孪生扩散模型”(Noise-Consistent Siamese-Diffusion model)的诞生,为医学影像分割任务打开了新路径。
技术亮点,双模型与自我纠错的巧妙结合
论文提出的“噪声一致性孪生扩散模型”通过两条扩散路径协同工作:一条专注于病灶的位置与结构,另一条则负责处理图像的细节与纹理。后者如同一位“严师”,不断校正前者的生成轨迹,使其在保证位置与结构精度的同时,还能生成更加逼真且多样的图片。最终,该模型仅需掩码输入,就能独立生成高质量的医学影像,并确保后续使用这些数据训练的模型能够输出精确的分割结果。
这一机制的创新点在于,其不仅提升了模型在生成任务中的逼真稳定性与多样性,还能在缺乏真实图像的前提下,有效补足训练数据的不足,尤其适用于小样本、隐私受限等医学场景。
模型示意图
在多个公开医学图像数据集上,该方法均展现出优异表现:在息肉分割任务中,SANet 模型的关键指标 mDice 与 mIoU 分别提升了 3.6% 和 4.4%;在皮肤病灶分割中,UNet 模型在 ISIC2018 数据集上的 mDice 提升达 1.52%;同时,合成图像的质量也有显著跃升,在图像真实性指标 FID 上较现有最优方案降低 35 分,生成结果更加接近真实分布。
高志强教授认为,这项技术如果能推广到基层医院,将有望缓解“医生资源不足”与“影像识别难”这两大痛点。借助合成影像训练出的模型,可以帮助基层医院在缺乏影像科专家的情况下,自动完成病灶识别与分割,大幅提升诊断效率与准确率。此外,合成数据还能帮助医院用更低的成本训练鲁棒模型(一种不容易被干扰或出错的AI模型),进一步提高医疗服务的可及性与公平性。
科研跨界合作,激发创新潜力
“让我印象最深的,是新加坡团队带来的医学视角。”高教授表示,对方提出将真实图像与掩码共同输入的构想,为整个模型的表达提供了关键的先验知识。温肯团队则从机器学习的角度出发,为该方案提供了理论和技术优化,强化了其研究贡献。“这种跨学科、跨文化的思维碰撞,不仅让科研更加高效,也让最终的成果更具实用性和创新性。”
高教授团队合影
这种合作模式,也为温肯师生的科研提供了借鉴。“我们要鼓励学生走出单一学科,跨学科合作能够拓宽研究视野,帮助师生从不同角度思考问题。”高教授表示,与不同背景的科研人员进行交流和合作,能激发更多的创新灵感。这不仅有利于学术突破,更能培养具有全球视野和跨界沟通能力的新一代研究者。
文字 | 陈慧
图片 | 受访者提供
一审 | 尚蕊
二审 | 项温蔚
三审 | 吕卓环
责编 | 传播与公共关系部