GroundingDINO：用自然语言开启零样本目标检测的新纪元

发布时间：2026/6/2 15:24:43

GroundingDINO用自然语言开启零样本目标检测的新纪元【免费下载链接】GroundingDINO[ECCV 2024] Official implementation of the paper Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection项目地址: https://gitcode.com/GitHub_Trending/gr/GroundingDINO还在为传统目标检测模型需要大量标注数据而烦恼吗想象一下你只需要告诉AI检测图片中的猫和狗它就能精准定位这些对象无需任何预训练数据。这就是GroundingDINO带来的革命性体验——一个能够理解自然语言的开集目标检测模型让计算机视觉变得更加智能和人性化。GroundingDINO是IDEA Research团队推出的创新性视觉语言模型它将DINO检测器与接地预训练技术完美结合实现了从闭集检测到开集检测的跨越。无论你是AI研究者、开发者还是对多模态AI感兴趣的爱好者这个项目都将为你打开一扇通往智能视觉理解的新大门。为什么传统目标检测让你头疼传统目标检测模型就像一位只会特定任务的专家——它们只能识别训练过的类别。如果你想检测一个从未见过的对象就必须重新收集数据、标注、训练整个过程耗时耗力。更糟糕的是现实世界中的对象种类无穷无尽你永远无法为每个可能的类别都准备训练数据。GroundingDINO的跨模态架构文本与视觉特征的深度融合实现智能检测GroundingDINO彻底改变了这一局面。它采用创新的跨模态注意力机制让文本描述直接指导视觉检测。模型包含文本主干网络、图像主干网络、特征增强器、语言引导查询选择和跨模态解码器五个核心组件实现了语言与视觉的无缝对接。三分钟体验从文字到检测框的魔法让我们通过一个简单示例感受GroundingDINO的魅力。假设你有一张包含猫和狗的图片传统方法需要训练专门的猫狗检测器而GroundingDINO只需要一句简单的指令from groundingdino.util.inference import load_model, load_image, predict, annotate import cv2 # 加载模型 model load_model(groundingdino/config/GroundingDINO_SwinT_OGC.py, weights/groundingdino_swint_ogc.pth) # 准备图像和文本提示 image_source, image load_image(your_image.jpg) text_prompt 猫 . 狗 . 椅子 . box_threshold 0.35 text_threshold 0.25 # 执行检测 boxes, logits, phrases predict( modelmodel, imageimage, captiontext_prompt, box_thresholdbox_threshold, text_thresholdtext_threshold ) # 标注并保存结果 annotated_frame annotate(image_sourceimage_source, boxesboxes, logitslogits, phrasesphrases) cv2.imwrite(annotated_image.jpg, annotated_frame)这个过程就像给AI下达自然语言指令它会理解你的意图并精准执行。文本提示中的每个类别用句点分隔模型会同时检测所有提到的对象类型。实战场景GroundingDINO如何改变你的工作流场景一智能图像标注自动化传统图像标注工作需要人工绘制边界框耗时且成本高昂。GroundingDINO可以实现自动化标注只需提供类别名称系统就能自动生成高质量的标注数据。在COCO数据集上的零样本检测达到52.5 AP即使没有在COCO数据上训练过GroundingDINO在COCO数据集上的卓越表现超越传统检测方法场景二多模态内容理解与编辑GroundingDINO与Stable Diffusion、GLIGEN等生成模型结合开启了全新的图像编辑范式。你可以先检测图像中的特定对象然后用文本描述指导生成模型进行修改# 结合GroundingDINO与Stable Diffusion进行图像编辑 # demo/image_editing_with_groundingdino_stablediffusion.ipynb这种能力在创意设计、广告制作、内容创作等领域具有巨大潜力。想象一下你可以告诉AI把图片中的狮子换成狗或者给这个人加上一顶帽子AI就能精准理解并执行。场景三开放世界视觉问答系统构建能够理解复杂场景的视觉问答系统一直是AI领域的挑战。GroundingDINO可以作为多模态理解管道的关键组件为问题提供目标级别的定位信息。例如当用户问图片左下角穿红色衣服的人手里拿着什么时模型不仅能识别人这个类别还能理解左下角、红色衣服等空间和属性信息。快速上手五分钟部署完整环境第一步获取项目代码git clone https://gitcode.com/GitHub_Trending/gr/GroundingDINO cd GroundingDINO/第二步安装依赖并配置环境pip install -e . mkdir weights cd weights wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth cd ..第三步运行你的第一个检测python demo/inference_on_a_image.py \ -c groundingdino/config/GroundingDINO_SwinT_OGC.py \ -p weights/groundingdino_swint_ogc.pth \ -i .asset/cat_dog.jpeg \ -o logs/output \ -t 猫 . 狗 .GroundingDINO精准检测图片中的猫和狗展示零样本检测的强大能力参数调优让检测更精准GroundingDINO提供了灵活的阈值参数让你可以根据不同场景调整检测精度box_threshold边界框置信度阈值默认0.35值越高检测越严格text_threshold文本相似度阈值默认0.25控制短语匹配的精确度token_spans指定短语在文本中的位置实现细粒度控制对于简单场景可以适当提高阈值减少误检对于复杂场景或需要高召回率的任务可以降低阈值。文本提示的格式也很重要——使用句点分隔不同类别保持描述简洁明确。高级功能超越基础检测短语级精确定位GroundingDINO支持对复杂描述的精确理解。比如输入图片中有一只猫和一条狗你可以通过token_spans参数指定具体短语的位置python demo/inference_on_a_image.py \ -c groundingdino/config/GroundingDINO_SwinT_OGC.py \ -p weights/groundingdino_swint_ogc.pth \ -i .asset/cat_dog.jpeg \ -o logs/1111 \ -t 图片中有一只猫和一条狗 . \ --token_spans [[[5, 6], [7, 10]], [[11, 12], [13, 16]]]Web界面交互体验项目还提供了Gradio Web UI让你无需编写代码就能体验GroundingDINO的强大功能python demo/gradio_app.py这个交互式界面支持上传图片、输入文本提示、调整参数并实时查看检测结果非常适合演示和教育用途。性能优化与生产部署硬件要求与优化GPU模式确保CUDA环境变量正确设置获得最佳性能CPU模式添加--cpu-only参数适合资源受限环境内存管理大图像可以适当降低分辨率平衡速度与精度模型选择策略GroundingDINO提供两种预训练模型GroundingDINO-T基于Swin-T骨干网络轻量高效GroundingDINO-B基于Swin-B骨干网络精度更高根据你的计算资源和精度需求选择合适的模型。对于大多数应用场景Swin-T版本已经足够优秀。生态系统与前沿AI模型的无缝集成GroundingDINO的强大之处还在于其出色的兼容性可以与多个顶尖AI项目无缝集成Grounded-SAM结合Segment Anything模型实现分割与检测的统一Stable Diffusion实现基于文本的精准图像编辑GLIGEN更细致的可控图像生成DetGPT通过推理检测所需内容这些集成项目都在demo/目录中提供了详细的示例代码你可以根据自己的需求探索不同的应用组合。常见问题与解决方案问题1环境配置错误如果遇到NameError: name _C is not defined错误通常是环境配置问题。请检查CUDA_HOME环境变量是否正确设置echo $CUDA_HOME export CUDA_HOME/usr/local/cuda # 根据实际路径调整问题2检测结果不理想调整box_threshold和text_threshold参数优化文本提示使用更具体的描述尝试不同的模型配置问题3内存不足降低输入图像分辨率使用CPU模式运行选择较小的模型版本未来展望开放世界视觉理解的无限可能GroundingDINO代表了目标检测技术的重要突破它将自然语言理解与计算机视觉深度融合为开放世界视觉理解开辟了新路径。随着多模态AI技术的快速发展这种基于语言引导的检测范式将在更多领域展现价值智能安防通过自然语言描述搜索监控视频中的特定对象医疗影像医生用专业术语指导AI定位病灶区域自动驾驶理解复杂的交通场景描述教育科技构建能够理解教学内容的智能系统从闭集检测到开集检测再到图像编辑应用GroundingDINO开启多模态AI新篇章无论你是想要快速构建原型还是开发生产级应用GroundingDINO都为你提供了强大的基础能力。它的开源特性、优秀的文档支持和活跃的社区使得学习和应用变得异常简单。现在就开始你的零样本目标检测之旅吧访问项目仓库获取最新代码加入这个正在改变计算机视觉格局的开源项目一起探索AI视觉理解的新边界。【免费下载链接】GroundingDINO[ECCV 2024] Official implementation of the paper Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection项目地址: https://gitcode.com/GitHub_Trending/gr/GroundingDINO创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

基于Voronoi图与ATtiny85的PCB艺术灯设计与实现

1. 项目概述：从数学之美到实体光影几年前，我在研究自然界的几何形态时，被一种名为Voronoi的图案深深吸引。从长颈鹿的皮肤纹理、玉米粒的排列，到蜂巢的结构，这种由“最近邻”原则划分空间的数学之美无处不在。当时我就…

2026/6/2 15:24:22 阅读更多

【物流智能化临界点预警】：当传统WMS响应延迟＞800ms时，这3个AI嵌入时机决定降本上限（附Gartner 2024供应链AI成熟度雷达图）

更多请点击： https://codechina.net 第一章：AI工具与物流系统整合的临界点认知当实时路径优化引擎每秒处理12万条运单轨迹、智能分拣机器人集群自主协商冲突路径、库存预测模型将缺货率压降至0.3%以下——物流系统并未因此“变聪明”，而是终…

2026/6/2 15:24:22 阅读更多

如何在PS4上轻松管理全世代游戏存档：Apollo Save Tool终极指南

如何在PS4上轻松管理全世代游戏存档：Apollo Save Tool终极指南【免费下载链接】apollo-ps4 Apollo Save Tool (PS4) 项目地址: https://gitcode.com/gh_mirrors/ap/apollo-ps4 你是否曾因PS4存档损坏而痛失数百小时的游戏进度？或者想重温PS1、PS…

2026/6/2 15:23:42 阅读更多

告别AT指令报错！手把手教你为ESP8266刷入MQTT固件，轻松连上阿里云

ESP8266固件升级实战：从AT指令报错到MQTT连接阿里云全解析当你在串口助手输入 ATMQTTUSERCFG 却只收到冰冷的 ERROR 时，那种挫败感我深有体会。三年前我第一次接触ESP8266模块，官方固件对MQTT支持的缺失让我在阿里云物联网平台前寸步难行…

2026/6/3 2:16:44 阅读更多

别再死记硬背了！用FFmpeg实战搞懂YUV420P、NV12这些格式到底怎么存

用FFmpeg实战解析YUV420P与NV12的内存布局奥秘在视频处理领域，YUV格式就像空气般无处不在却又容易被忽视。当开发者第一次接触YUV420P、NV12这些术语时，往往会被各种"Planar"、"Semi-Planar"的描述弄得晕头转向。本文将通过FFmpeg命…

2026/6/3 2:16:03 阅读更多

别再只会抄代码了！深入解析51单片机+ADC0809电压表程序里的定时器与中断设计

51单片机与ADC0809电压表设计：从定时器中断到量化误差的全栈解析第一次接触51单片机的ADC0809电压表项目时，我被那些看似神秘的定时器配置和中断服务函数弄得一头雾水。为什么TH0要设置为0x3C？那个5次计数的uc_Clock变量到底在控制什么&#…

2026/6/3 2:16:03 阅读更多

深度解析智能斗地主AI助手：专业级实战应用完整方案

深度解析智能斗地主AI助手：专业级实战应用完整方案【免费下载链接】DouZero_For_HappyDouDiZhu 基于DouZero定制AI实战欢乐斗地主项目地址: https://gitcode.com/gh_mirrors/do/DouZero_For_HappyDouDiZhu 基于DouZero深度强化学习算法的专业级斗地主AI助手…

2026/6/3 2:16:03 阅读更多

保姆级教程：手把手教你搞定NXP S32K144的MBD工具箱安装与激活（含MATLAB 2023b环境）

从零开始：NXP S32K144 MBD工具箱全流程安装指南（MATLAB 2023b适配版） 第一次接触NXP汽车级MCU开发时，工具箱安装往往是新手遇到的第一个门槛。去年我负责一个车载控制器项目时，团队花了整整三天时间才解决所有安装问题…

2026/6/3 2:16:03 阅读更多

Docker 入门指南：从零开始掌握容器化技术

一、什么是 Docker？为什么要学它？ 想象一下这个场景：你在本地写好的代码跑得顺顺当当，推到服务器上就各种报错——“在我电脑上明明是好的啊！”这话是不是特别耳熟？ Docker 就是来解决这个问题的。它是一…

2026/6/3 2:15:03 阅读更多

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

Unity打包EXE后Universal Media Player播放RTSP失败的深度修复指南当你在Unity中使用Universal Media Player（UMP）插件成功实现了RTSP流的播放，却在打包EXE后遭遇"无画面"或"找不到库文件"的错误时，这种从开发…

2026/6/3 0:00:49 阅读更多

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

1. 项目概述与核心价值在工业现场，数据采集的稳定性和准确性是命脉。无论是监测管道压力、罐体液位还是电机转速，我们都需要将物理世界的信号，可靠地转换为控制系统能理解的“语言”。这其中，4-20mA电流环信号堪称工业模拟信号传输…

2026/6/3 0:00:49 阅读更多

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

1. 项目概述：为FPV竞速增添专业感的DIY计时门如果你和我一样，家里有个对FPV无人机着迷的孩子，或者你自己就是个竞速爱好者，那你肯定理解那种想给自家的小型无人机赛道增加点“专业感”的冲动。我们在地下室用纸箱、呼啦圈搭过各种…

2026/6/3 0:00:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

基于Voronoi图与ATtiny85的PCB艺术灯设计与实现

【物流智能化临界点预警】：当传统WMS响应延迟＞800ms时，这3个AI嵌入时机决定降本上限（附Gartner 2024供应链AI成熟度雷达图）

如何在PS4上轻松管理全世代游戏存档：Apollo Save Tool终极指南

告别AT指令报错！手把手教你为ESP8266刷入MQTT固件，轻松连上阿里云

别再死记硬背了！用FFmpeg实战搞懂YUV420P、NV12这些格式到底怎么存

别再只会抄代码了！深入解析51单片机+ADC0809电压表程序里的定时器与中断设计

深度解析智能斗地主AI助手：专业级实战应用完整方案

保姆级教程：手把手教你搞定NXP S32K144的MBD工具箱安装与激活（含MATLAB 2023b环境）

Docker 入门指南：从零开始掌握容器化技术

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因