CVPR 2026 | 超声大模型来了！中国团队构建首个大规模超声专属数据集，36.4万超声图文对！

发布时间：2026/6/17 15:53:11

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐Ultrasound-CLIP团队投稿转载自量子位QbitAI超声领域也有大模型了超声影像凭借实时、无辐射的优势成为临床各场景的一线诊断手段。但异质的解剖结构、多样的诊断属性让通用视觉语言预训练模型难以直接适配且现有医疗跨模态数据中超声样本占比不足5%成为领域研究的核心瓶颈。△超声图像统计数据跨越主要基准点的分布情况。上图红色区域和内部百分比显示了超声图像所占的比例而蓝色区域则展示了其余模态的占比情况。顶部标签表示绝对数量以千为单位。论文中所提出的US-365K是首个大规模、100%专用于超声影像的数据集。针对这一问题浙大城市学院联合浙江大学、香港城市大学、香港浸会大学、浙江大学医学院附属第一医院、浙江大学医学院附属妇产科医院等团队构建了首个大规模通用超声图像-文本数据集US-365K并提出专为超声场景设计的语义感知对比学习框架Ultrasound-CLIP让模型真正理解超声的临床诊断语义相关成果被CVPR 2026接收数据集及代码已开源。核心痛点超声跨模态学习的三重障碍现有视觉语言模型在超声领域的应用始终面临三个关键问题1. 数据缺口显著主流医疗跨模态数据集以CT、MRI等为主超声样本占比极低缺乏大规模、标准化的专属训练数据2. 语义模糊难对齐超声诊断报告的表述多样相同病变存在不同描述方式传统对比学习难以精准界定正负样本易产生语义偏差3. 缺乏临床结构先验超声诊断依赖病灶与诊断属性的复杂关联通用模型无法建模这类专业的临床推理逻辑仅能实现简单的关键词匹配。△UDT和Ultrasound-CLIP概述。上图中(a) UDT作为语义基础通过标准化解剖层次结构UHAT和定义9个关键诊断属性UDAF来形式化超声知识。(b) Ultrasound-CLIP利用UDT的方式有两种(1)基于UDAF的异构图编码器通过交叉注意力将属性关系融合到文本嵌入中以建模结构化推理。(2)构建基于UDAF的语义先验以实现双目标优化从而解决歧义。该框架将视觉特征与这些图增强的、语义感知的文本表示对齐。为从根本上解决上述问题研究团队立足超声临床诊断的专业逻辑从标准化数据构建和定制化模型设计两大维度出发打造全链路适配超声场景的跨模态学习体系实现双重核心技术突破。第一步构建UDT知识框架打造标准化US-365K数据集团队率先建立超声诊断分类体系UDT为超声数据的标准化标注和模型学习确立统一的专业依据该体系包含两大核心模块实现超声诊断知识的结构化、形式化超声层级解剖分类UHAT按临床诊断原则系统梳理9大人体系统、52个器官的层级解剖结构明确各器官的层级归属与上下文关联彻底解决不同数据源中解剖分类混乱的问题实现超声解剖标注的标准化超声诊断属性框架UDAF凝练临床医生解读超声影像时核心关注的9大诊断维度包括身体系统、器官、诊断结果、形状、边缘、回声性、内部特征、后方声学现象、血流信号为每个维度定制临床有效描述词汇表形成标准化的超声诊断描述体系。△基于UHAT的US-365K解剖层次结构可视化。基于UDT标准化框架团队从5个国际权威医疗数据库收集体量超声数据经多步骤精细化处理先过滤非超声内容将超声视频按0.5秒间隔分解为静态帧平衡数据多样性与冗余性再基于UDAF框架通过大模型结构化提示的混合流水线提取标准化诊断标签最后经医疗专家逐例审核、筛选剔除模糊、不一致样本最终构建出US-365K数据集。该数据集包含36.4万对超声图像-文本样本、11676个临床真实病例覆盖全解剖区域是业内首个100%专属超声的大规模图文数据集数据有效率超90%填补了超声跨模态大规模标准化数据的行业空白为超声AI研究奠定高质量数据基础。第二步提出Ultrasound-CLIP框架实现超声语义的精准建模与对齐针对超声场景的语义模糊和结构缺失难题团队设计出Ultrasound-CLIP语义感知对比学习框架在经典双编码器图像文本基础上创新融入UDAF引导的异质图编码器和基于UDAF的语义软标签两大核心模块并采用双目标优化策略让模型具备超声领域的结构化临床推理能力突破通用模型的局限1UDAF引导的异质图编码器建模临床属性结构化关联团队将每个超声样本的文本标注转化为样本专属的异质图基于UDAF框架定义诊断节点和属性节点两类核心节点根据样本的标准化诊断标签确定激活节点集并在诊断节点与属性节点间构建全二分连接形成病灶-属性的关联图结构。通过轻量级异质图神经网络GNN对异质图进行编码得到包含节点关联信息的节点嵌入再经注意力池化生成图汇总向量最后通过多头交叉注意力将图嵌入与原始文本嵌入融合并通过门控残差连接实现稳定融合得到图增强的文本嵌入。这一过程让文本嵌入融入超声诊断标签与属性的结构化临床关联突破单纯关键词匹配的局限让模型能捕捉超声诊断的专业语义逻辑。2基于UDAF的语义软标签实现细粒度语义相似度度量摒弃传统二进制硬标签团队基于UDAF的9大诊断维度构建连续语义相似度软标签为每个诊断维度预定义标准化标签相似度矩阵计算样本对在各维度的语义亲和力再加权聚合得到样本对的整体语义先验相似度形成B×B的软先验矩阵B为批次大小实现细粒度的语义重叠识别解决超声诊断报告表述多样带来的语义模糊问题。3双目标优化策略实现跨模态精准对齐与语义正则化框架采用对比损失语义损失的双目标优化策略让模型同时实现图像-文本跨模态精准对齐和语义特征的正则化对比损失L(CLIP)采用经典对称对比损失最大化正样本对图像-对应文本的相似度最小化负样本对的相似度实现图像与文本的基础跨模态对齐语义损失L(semantic)融合均方误差MSE和KL散度让模型预测的相似度矩阵与UDAF基语义软先验矩阵匹配既实现相似度的数值匹配又保证分布一致性让语义相似的样本在特征空间中有效聚类。通过双目标联合优化模型既能实现超声图像与文本的精准跨模态对齐又能精准捕捉超声诊断的细粒度语义特征真正理解超声的临床语言。实验验证全任务性能领先泛化能力适配多临床场景团队以US-365K为基础在多任务分类、图像-文本检索任务中开展实验并在4个公开的超声下游数据集上验证模型泛化能力结果显示Ultrasound-CLIP全面优于现有医疗CLIP基线模型多任务分类平均准确率达59.61%其中病灶边缘、诊断结果等核心临床属性的识别准确率分别达84.44%、64.05%能精准捕捉超声诊断的关键信息。图像-文本检索图像到文本检索I2T10达37.45%文本到图像检索T2I50达80.22%实现超声图文的高效双向匹配。下游泛化在乳腺、胃肠超声等4个数据集的零样本、线性探测、全微调任务中均取得最优性能可适配不同超声临床诊断场景。资源开源助力超声AI领域共同研究为推动超声跨模态学习领域的发展团队已将研究相关的代码和US-365K数据集公开为后续研究者提供可直接复用的基础资源。论文标题Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding作者Jiayun Jin, Haolong Chai, Xueying Huang, Xiaoqing Guo, Zengwei Zheng, Zhan Zhou, Junmei Wang, Xinyu Wang, Jie Liu*, Binbin Zhou*单位浙大城市学院、香港浸会大学、浙江大学、浙江大学医学院附属第一医院、浙江大学医学院附属妇产科医院、香港城市大学发表CVPR 2026arxiv论文地址http://arxiv.org/abs/2604.01749项目地址https://github.com/ZJUDataIntelligence/Ultrasound-CLIP数据集地址https://huggingface.co/datasets/JJY-0823/US-365K作者简介本文第一作者为金佳云浙大城市学院硕士生研究方向为多模态大模型。本文在周斌彬副教授和刘洁博士的指导下完成。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

ncmdump终极指南：三步解锁网易云音乐NCM加密文件

ncmdump终极指南：三步解锁网易云音乐NCM加密文件【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的NCM加密文件无法在其他播放器播放而烦恼吗？ncmdump这款免费开源工具正是你的完美解决方…

2026/6/18 2:18:45 阅读更多

Chrome文本替换插件：网页内容编辑的终极解决方案

Chrome文本替换插件：网页内容编辑的终极解决方案【免费下载链接】chrome-extensions-searchReplace 项目地址: https://gitcode.com/gh_mirrors/ch/chrome-extensions-searchReplace 你是否曾在浏览网页时发现错误信息却无法修改？是否需要对大量…

2026/6/17 20:29:49 阅读更多

Linux音频

一、音频概念：实践生活中，我们感受到的信号都是模拟信号，不管是声音还是光线，这些模拟信号需要被A/D转换器转换为数字信号，才能被存储在计算机中，从概念上讲，我们可以将A/D转换视为三步完成的过…

2026/6/16 4:32:33 阅读更多

10分钟搞定黑苹果：OpCore-Simplify图形化OpenCore配置工具终极指南

10分钟搞定黑苹果：OpCore-Simplify图形化OpenCore配置工具终极指南【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的黑苹果配置…

2026/6/18 5:17:18 阅读更多

Gobuster断点续扫与偏移量设置：从原理到实战的完整指南

1. 项目概述：为什么我们需要“断点续扫”？如果你用过Gobuster这类目录/文件枚举工具，肯定遇到过这种场景：你精心准备了一个包含几十万甚至上百万条路径的单词表，对着一个目标站点开始扫描。扫描了几个小时，…

2026/6/18 5:16:37 阅读更多

Gemini 1.5 Pro API接入与合规使用指南

我不能按照您的要求生成该内容。原因如下：项目标题及正文明确包含“白嫖”“绕过 Google 所有风控”等表述，这直接违反平台内容安全规范中关于不得鼓励、教唆、协助用户规避平台规则或技术限制的核心要求。此类行为不仅违反Google服务条款，也…

2026/6/18 5:16:17 阅读更多

AMD Ryzen硬件调试三大利器：解锁专业级性能优化新境界

AMD Ryzen硬件调试三大利器：解锁专业级性能优化新境界【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://gi…

2026/6/18 5:15:57 阅读更多

告别“远古截图“：构建自动化、自更新的截图系统完全指南

告别"远古截图"：构建自动化、自更新的截图系统完全指南在软件开发和技术写作的日常工作中，截图似乎是一个微不足道却又无处不在的痛点。你是否有过这样的经历：文档中的界面截图还是三个版本前的旧UI，新入职的同事对着文…

2026/6/18 5:13:13 阅读更多

Ubuntu系统root权限开启与安全管理全解析

1. 项目概述：为什么要在Ubuntu中开启root？在Linux世界里，root用户是拥有至高无上权限的“超级管理员”。对于Ubuntu这个以用户友好和安全著称的发行版，其默认设计是禁用root用户的直接登录，转而鼓励用户通过sudo命令来…

2026/6/18 5:10:52 阅读更多

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/18 0:00:19 阅读更多

【IC】【Low Power】从功耗构成到设计实践：CMOS低功耗技术全景解析

1. CMOS电路功耗构成解析在芯片设计中，功耗就像汽车的油耗指标，直接影响着设备的续航能力和发热表现。想象一下你的手机如果功耗控制不好，可能用不了半天就得充电，还会烫得像暖手宝。CMOS电路的功耗主要来自两个"耗电大户&q…

2026/6/18 0:02:02 阅读更多

跨平台音乐播放神器：LX Music桌面版一站式解决多平台音乐聚合难题

跨平台音乐播放神器：LX Music桌面版一站式解决多平台音乐聚合难题【免费下载链接】lx-music-desktop 一个基于 Electron 的音乐软件项目地址: https://gitcode.com/GitHub_Trending/lx/lx-music-desktop 你是否厌倦了在不同音乐平台间来回切换？…

2026/6/18 0:04:07 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/18 0:35:55 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/18 0:35:55 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/18 0:35:55 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/17 11:00:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/17 11:00:26 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/17 11:00:22 阅读更多

相关文章

ncmdump终极指南：三步解锁网易云音乐NCM加密文件

Chrome文本替换插件：网页内容编辑的终极解决方案

Linux音频

10分钟搞定黑苹果：OpCore-Simplify图形化OpenCore配置工具终极指南

Gobuster断点续扫与偏移量设置：从原理到实战的完整指南

Gemini 1.5 Pro API接入与合规使用指南

AMD Ryzen硬件调试三大利器：解锁专业级性能优化新境界

告别“远古截图“：构建自动化、自更新的截图系统完全指南

Ubuntu系统root权限开启与安全管理全解析

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现 基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

【IC】【Low Power】从功耗构成到设计实践：CMOS低功耗技术全景解析

跨平台音乐播放神器：LX Music桌面版一站式解决多平台音乐聚合难题

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】