DeCLIP

news/2026/2/11 4:27:14/文章来源:https://www.cnblogs.com/Upwardxx/p/19130069

image

1、第一页
密集视觉预测任务受到对预定义类别的依赖的限制,限制了它们在真实世界场景中的实用性。
视觉语言模型在开放词汇任务中显示出良好前景,但它们直接应用于密集预测任务往往性能不佳。
CLIP的图像token难以有效聚集来自空间或语义相关区域的信息(注意力偏移问题),导致特征缺乏局部可区分性空间一致性。原因是:CLIP的CLS token会干扰其他图像token之间的相关性。

image

2、第二三页
观察到CLIP中更深层中CLS token将焦点从图像内的主要对象移开,而高度关注某些背景token,图像token也表现出类似的行为。也就是说,CLIP的图像token难以有效聚集来自空间或语义相关区域的信息(注意力偏移问题),导致特征缺乏局部可区分性空间一致性
提出了DeCLIP旨在提高CLIP局部特征的可区分性空间一致性。DeCLIP将自我注意模块功能分为“Content”和“Context”组件,Content负责局部可区分性Context负责空间一致性
本文研究的CLIP是:视觉编码器为VIT,文本编码器为Transformer。它的CLS token用来表示图像的核心信息整体特征。CLIP 的视觉 - 语言对齐,本质是通过 “奖惩机制” 训练两个编码器:让匹配的 “图像 [CLS] 特征” 和 “文本特征” 越来越像(余弦相似度大),让不匹配的越来越不像(余弦相似度小),最终学会 “看图识文、看文找图” 的能力。
image
image

3、第四页
这些背景token会用作CLS token的代理,这些代理会对图像token之间的特征相关性产生负面影响。VFM可以很好的解决代理token现象。
但是,同时进行自蒸馏+VFM蒸馏会导致区域分类性能降低(table 1),是因为空间特征相关性(我们现在正在优化的)和视觉语言对齐具有不同优化重点,从而优化冲突。于是我们解耦。

4、第五页
上面的公式,从Q和K导出的Attnqk对V进行指导和加权求和,该Attnqk定义了图像token之间的空间和语义关系,所以可以用来提高空间一致性
[38,59,63,71]证明Xdense可以直接用于像素分类的语义分割,说明Xdense的每个像素包含独立的语义信息,所以可以用来提高局部区分度
最新的OVS使我们可以不关注K,只关注Q来简化局部特征一致性的优化。
image

5、第六页
image
image
image

6、模型的效果以及和其他模型的比较。
(1)开放词汇目标检测
这部分验证 DeCLIP 在 “检测未知类别” 任务中的性能,重点看 “Novel 类”(训练未见过的类别)和 “Rare 类”(样本极少的类别)的提升,数据集用OV-COCO、OV-LVIS,与F-ViT、OV-DQUO目标检测模型比较。
(2)开放词汇语义分割
分割任务对空间一致性要求更高,更能体现 DeCLIP 的优势。mIoU可以作为评估指标。
(3)基于VLM特征的分割
(4)区域分类
区域分类是对 “局部判别性” 的直接验证。Top1 mAcc作为评估指标。

7、消融实验
(1)选择哪个 VFM 作为上下文蒸馏的教师
DINO:分割性能中等,区域分类差;
SAM:区域分类好,分割差;
DINOv2:两者平衡。最终选择 DINOv2 作为默认 VFM。

创新点:
(1)首次揭示 CLIP 的 “代理令牌” 现象,明确了 CLIP 在密集任务中性能差的根源。
(2)提出 “解耦注意力 + 双蒸馏” 框架,优雅解决优化冲突。面对 “判别性” 与 “一致性” 的优化冲突,既保留了 CLIP 的跨模态能力,又融入了 VFM 的空间关联能力。

下面补一下基础:
OV-COCO、OV-LVIS:用于评估开放词汇模型的数据集。
F-ViT、OV-DQUO:目标检测模型
CAT-Seg:分割模型
mIoU:是图像分割任务中用于评估模型性能的指标
Top1 mAcc:是区域分类中的评估指标,Thing 类 和 Stuff 类

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/174101.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在AI技术唾手可得的时代,挖掘新需求成为核心竞争力——某知名CTF资源库需求洞察

该项目是一个精心整理的CTF资源集合,涵盖创建和解题所需的各类工具框架,包括取证分析、密码学、逆向工程、网络攻防等多个安全领域,为安全研究人员和CTF爱好者提供一站式资源导航。a.内容描述核心功能定位:该项目是…

如何测试台式机电源

如何测试台式机电源如何测试台式机电源https://mbd.baidu.com/newspage/data/videolanding?nid=sv_5217672129161259963&sourceFrom=qmj网站:http://shibowl.topgithub:https://github.com/hanbinjxnc博客园:h…

折腾笔记[31]-在线转换吉卜力风格图片

在线转换吉卜力风格图片.主要是利用浏览器的隐私浏览(无痕)模式获取免费的试用额度(credits).摘要 在线转换吉卜力风格图片.主要是利用浏览器的隐私浏览(无痕)模式获取免费的试用额度(credits). 使用方式 [https://ghi…

完整教程:【网络安全 | 信息收集】灯塔(资产收集工具)安装教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

计算机视觉的现状与未来挑战

本文探讨计算机视觉技术的发展历程与当前面临的挑战,包括情感识别系统的局限性、上下文理解的重要性,以及生成对抗网络在虚拟场景构建中的应用前景。文章还介绍了视觉购物等实际应用场景。CVPR:理解图像意味着理解世…

#20232408 2025-2026-1《网络与系统攻防技术》实验一实验报告

北京电子科技学院(BESTI) 实 验 报 告课程名称: 网络与系统攻防技术实验序号: 实验一实验名称: 缓冲区溢出攻击学 号: 20232408姓 名: 李易骋指导老师: 王志强必修/选修: 选修实验日期:一、…

reLeetCode 热题 100- 239. 滑动窗口最大值 队列 - MKT

reLeetCode 热题 100- 239. 滑动窗口最大值 队列 队列记录最大值集合 方法一1 枚举 速度嘛 n*k方法2 map 记录频次 通过速度慢方法3 队列记录当前最大值 最快class Solution { public:vector<int> maxSlidingWin…

ToDo-List EveryDay

健康任务待办事项.health-todo-container * { box-sizing:border-box; margin:0; padding:0; } .health-todo-header { text-align:center; margin:1rem 0; } .health-todo-title { font-size:2.5rem; font-weight:bol…

详细介绍:ArcGIS Pro字段计算器与计算几何不可用,显示灰色

详细介绍:ArcGIS Pro字段计算器与计算几何不可用,显示灰色pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Conso…

Wails + Go + React跨平台RTSP播放器分享

最近用Wails框架开发了一个跨平台的RTSP播放器,通过WebRTC技术实现了RTSP到Web端的低延迟转换,效果非常不错。今天就来分享一下整个开发过程和技术方案。 🖼️ 平台预览Windows 平台 macOS 平台🎯 项目背景 痛点…

网络与系统攻防实验报告一 20232408李易骋1

北京电子科技学院(BESTI) 实 验 报 告课程名称: 网络与系统攻防技术实验序号: 实验一实验名称: 缓冲区溢出攻击学 号: 20232408姓 名: 李易骋指导老师: 王志强必修/选修: 选修实验日期:一、…

深入解析:Starrocks Full GC日志分析

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Hadoop 3.x 伪分布式 8088端口无法访问问题处理 - 实践

Hadoop 3.x 伪分布式 8088端口无法访问问题处理 - 实践2025-10-08 19:43 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; d…

[KaibaMath]1003 关于[x+y]≥[x]+[y]的证明

[KaibaMath]1003 关于[x+y]≥[x]+[y]的证明下面给出[x+y]≥[x]+[y]的证明。由此证明,我们可轻松推导出:{x+y}≤{x}+{y}。该不等式与绝对值的三角不等式|x+y|≤|x|+|y|具有高度一致性,因为{x}和|x|均非负。

实用指南:Oracle数据库笔记

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

[KaibaMath]1002 关于[x+n]=[x]+n的证明

[KaibaMath]1002 关于[x+n]=[x]+n的证明对x+n进行取整运算时,可将整数n提取到[]之外,这无疑简化了取整运算。

塑料回收技术创新与可持续发展

本文探讨了通过分子级塑料重构和新型化学回收技术实现塑料全生命周期净零碳排放的创新方法,重点介绍了可降解材料开发和混合塑料废物高效处理技术。某中心与能源部门合作推动塑料回收技术革新 某中心加入了美国能源部…

共享掩码:TFHE在打包消息上的自举技术

本文探讨了基于矩阵LWE假设的全同态加密方案,通过引入共享掩码密文格式显著降低密文扩展。研究展示了如何将TFHE类操作扩展到该格式,在布尔场景下打包8条消息可实现51%的性能提升,同时支持在单个密文中应用不同查找…

详细介绍:[论文阅读] (38)基于大模型的威胁情报分析与知识图谱构建论文总结(读书笔记)

详细介绍:[论文阅读] (38)基于大模型的威胁情报分析与知识图谱构建论文总结(读书笔记)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !importan…

完整教程:vue2 项目中 npm run dev 运行98% after emitting CopyPlugin 卡死

完整教程:vue2 项目中 npm run dev 运行98% after emitting CopyPlugin 卡死2025-10-08 19:08 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-…