NVIDA开源视觉定位神器：LocateAnything

发布时间：2026/6/4 3:05:14

LocateAnything全称为LocateAnything: Fast and High-Quality Vision-Language Grounding并行框解码视觉语言定位模型。开源了 LocateAnything-3B30 亿参数。模型定位通用开放词汇视觉定位基座一句话文本指令→图像自动输出目标包围框统一开放域检测、指代定位、UI 控件拾取、OCR 文字框选四大任务主打高速高精度面向机器人抓取、AI 智能体、工控视觉、自动 GUI 操作场景。非商用免费开源商用需联系英伟达授权。1.传统VLM缺陷主流 VLMsGPT4V、Qwen-VL自回归逐 Token 生成坐标框[x1,y1,x2,y2]拆成 4 组数字逐个字符解码串行生成1速度慢单个目标 4 次解码多物体叠加时延暴涨2误差累积第一个坐标出错整框报废、几何失真2.模型创新PBDParallel Box Decoding 并行框解码原理把整框 (x1,y1,x2,y2) 当做 1 个不可拆分的原子单元一步并行全量预测不再拆分坐标 Token1视觉编码器提取图像全局特征文本编码器解析查询指令自然语言2解码器一次性批量输出所有目标完整包围框单步输出 4 个坐标3天然保留框几何约束不会出现坐标错位、长宽畸形。性能提升推理吞吐量≈传统自回归模型2.510 倍H100 混合模式可达12.7 框 / 秒 (BPS)满足机器人实时毫秒级定位。3.三种推理运行模式如下表所示模式适用场景特点Fast 快速机器人实时抓取、端侧工控、在线实时检测纯 PBD 并行解码速度最优牺牲极少量精度Slow 高精度数据集标注、离线质检、高精度测量传统自回归解码精度拉满、速度偏低Hybrid 混合默认通用部署默认 Fast场景歧义 / 识别异常自动切 Slow兼顾速度精度4.训练数据集LocateAnything-Data业界超大定位数据集自研百万级多域标注库1200 万张独立图像 1.38 亿条文本查询 7.85 亿标注包围框覆盖 5 大领域通用自然物体、机器人实操场景、手机 / 电脑 GUI 界面、文档 OCR、自动驾驶路面目标优势开箱即用零样本不用微调即可识别任意新词、小众工业零件。5.支持的任务和优势1开放词汇通用目标检测输入 “图里所有黑色手机”自动框出全部手机不限预定义类别2指代表达定位“画面右侧胶带下方的绿色方格板”精准框选指代物体机器人抓取刚需3GUI 界面元素定位“屏幕所有按钮 / 输入框”AI 自动化点控、键鼠自动化4OCR 文本框选“框出图片内所有汉字”文字区域坐标提取5点提示辅助定位配合打点文本混合 Prompt疑难物体精准框选。相比传统的优势如下1定位 AP 精度现有开源 VLMsQwen-VL、LLaVA5%~12%2同等精度下推理耗时仅传统方案 1/33密集杂物堆叠场景多零件混放零样本鲁棒性突出适配工业杂乱工件定位。6.和SAM/YOLO 区别1YOLO 系列闭集预定义类别新增工件必须重新标注训练LocateAnything开放词汇自然语言任意新词零样本识别2SAM 分割点 / 框提示做像素分割不能文本指令LocateAnything纯文本输入出检测框侧重目标定位推理更快互补方案LocateAnything 出目标包围框→框内送入 SAM 做精细像素分割工业视觉常用组合。7.应用部署使用 NVIDIA 官方开源 LocateAnything-3B支持自然语言指令检测任意物体人、车、工件、缺陷、零件、文字、按钮… 都可以。1环境要求Python 3.9PyTorch 2.0CUDA 11.7必须有 NVIDIA 显卡显存 ≥ 10GB推荐 16GB 以上如 RTX 3090/4090。2环境配置pip install torch torchvision transformers pillow opencv-python模型下载nvidia/LocateAnything-3B3目标检测纯目标检测模式输入图片文本指令 → 输出所有目标框代码如下import cv2 import torch from PIL import Image from transformers import AutoModel, AutoTokenizer # 1. 加载模型 model_name nvidia/LocateAnything-3B tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModel.from_pretrained( model_name, torch_dtypetorch.float16, trust_remote_codeTrue ).cuda().eval() # 2. 加载图片 image_path test.jpg # 你要检测的图片 image Image.open(image_path).convert(RGB) # 3. 输入检测指令 # 想检测什么就写什么 prompt 找出图中的所有杯子 # prompt 框出所有轴承工件 # prompt 找到图中的红色零件 # 4. 推理 with torch.no_grad(): boxes model.predict_boxes( imageimage, promptprompt, tokenizertokenizer, max_boxes20, # 最多检测多少个物体 conf_thres0.3, # 置信度阈值 devicecuda ) # 5. 绘制结果 img cv2.imread(image_path) for box in boxes: x1, y1, x2, y2 map(int, box) cv2.rectangle(img, (x1, y1), (x2, y2), (0, 255, 0), 2) cv2.imwrite(result.jpg, img) print(检测完成输出框坐标, boxes)4检测应用技巧(1)检测任意物体开放词汇不用训练想检测什么直接写自然语言就行prompt 找出图中的所有螺丝 prompt 找到所有黑色橡胶圈 prompt 框出所有金属工件 prompt 找出图中的缺陷 prompt 找到所有按钮。2控制检测数量max_boxes10 # 最多检测10个conf_thres0.5 # 置信度越高框越少越准3支持复杂描述比 YOLO 强得多prompt 找到桌子上的白色杯子prompt 框出右上角的零件prompt 找到图片中间最大的那个物体4支持多类别同时检测prompt 找出图中的杯子、瓶子、键盘检测效果如下图所示

Seraphine：英雄联盟智能辅助工具的终极完整指南

Seraphine：英雄联盟智能辅助工具的终极完整指南【免费下载链接】Seraphine 英雄联盟战绩查询工具项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 你是否厌倦了在英雄联盟中手动查询战绩、配置符文出装？是否希望有一个智能工具帮你自动…

2026/6/4 3:04:34 阅读更多

STM32串口DMA传输实战：用DMA1_Channel4实现零CPU占用的串口数据发送

STM32串口DMA传输实战：用DMA1_Channel4实现零CPU占用的串口数据发送在嵌入式开发中，系统资源的合理分配往往决定了产品的性能上限。想象一下，当你的STM32需要持续向串口发送大量数据时，传统的轮询或中断方式会无情地吞噬宝贵的CPU…

2026/6/4 3:03:53 阅读更多

别再只调API了！用PyTorch从零复现Facenet，搞懂人脸识别背后的度量学习

从零构建Facenet：PyTorch实战度量学习与人脸识别核心原理人脸识别技术早已渗透进日常生活，但多数开发者仅停留在调用API的阶段。本文将带你深入Facenet的核心——度量学习与Triplet Loss机制，用PyTorch从零实现一个可训练、可调优的人脸识别系…

2026/6/4 3:03:53 阅读更多

Kotlin Socket通信避坑指南：从连接超时到编码乱码，一次搞定Android客户端开发

Kotlin Socket通信避坑指南：从连接超时到编码乱码的实战解决方案1. 连接管理的艺术：超时与重试机制在Android开发中，Socket连接就像走钢丝——稍有不慎就会坠入崩溃的深渊。我曾在一个电商App项目中，因为忽略了一个简单的超时设置…

2026/6/4 4:58:09 阅读更多

避开这些坑！用jieba做金融文本分析时，你的自定义词典可能白加了（附正确加载与验证方法）

金融文本分析进阶：jieba自定义词典的深度避坑指南当你满怀信心地将精心准备的自定义词典加载到jieba中，却发现"资产负债表"依然被拆分成"资产"和"负债表"，或者"现金流量表"被错误地切分为"现金…

2026/6/4 4:58:09 阅读更多

开发者必读：MiniCPM-V-4.6-Thinking API集成与高级参数配置终极指南

开发者必读：MiniCPM-V-4.6-Thinking API集成与高级参数配置终极指南【免费下载链接】MiniCPM-V-4.6-Thinking 项目地址: https://ai.gitcode.com/OpenBMB/MiniCPM-V-4.6-Thinking 想要快速掌握MiniCPM-V-4.6-Thinking这款强大的多模态AI模型的API集成技巧吗…

2026/6/4 4:58:09 阅读更多

为什么92%的AI预测项目失败？——揭开模型上线后准确率断崖式下跌的3层黑箱

更多请点击： https://intelliparadigm.com 第一章：为什么92%的AI预测项目失败？——揭开模型上线后准确率断崖式下跌的3层黑箱当模型在离线测试中达到98.2%的AUC，却在生产环境首周跌至61.4%，问题往往不出在算法本身&a…

2026/6/4 4:58:09 阅读更多

OpenArk反Rootkit工具完整使用指南：5大核心功能深度解析

OpenArk反Rootkit工具完整使用指南：5大核心功能深度解析【免费下载链接】OpenArk The Next Generation of Anti-Rookit(ARK) tool for Windows. 项目地址: https://gitcode.com/GitHub_Trending/op/OpenArk 作为Windows平台的新一代开源反Rootkit工具&#…

2026/6/4 4:57:29 阅读更多

Atlas OS Xbox登录错误0x89235107终极解决方案：从快速修复到深度优化

Atlas OS Xbox登录错误0x89235107终极解决方案：从快速修复到深度优化【免费下载链接】Atlas 🚀 An open and lightweight modification to Windows, designed to optimize performance, privacy and usability. 项目地址: https://gitcode.com/GitHub…

2026/6/4 4:57:08 阅读更多

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

IAR Embedded Workbench 许可证管理全指南与合规开发方案在嵌入式开发领域，IAR Embedded Workbench 以其高效的编译器和强大的调试功能著称，成为众多工程师的首选工具。然而，随着团队规模扩大和项目复杂度提升，许可证管理问题逐渐…

2026/6/4 0:03:11 阅读更多

赤铁矿磨矿过程运行优化控制软件系统【附程序】

✨ 长期致力于赤铁矿磨矿过程、磨矿粒度、数据驱动、运行优化控制、神经网络、案例推理、规则推理、软件系统研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&…

2026/6/4 0:03:32 阅读更多

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

终极指南：如何使用Attu轻松管理你的Milvus向量数据库【免费下载链接】attu The Best GUI for Milvus 项目地址: https://gitcode.com/gh_mirrors/at/attu Attu是一款专为Milvus向量数据库设计的现代化AI工作台管理工具，提供全面的可视化界面&…

2026/6/4 0:04:12 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/3 4:17:19 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/3 4:17:20 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/3 4:17:20 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/3 5:40:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/3 4:17:20 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/3 4:17:19 阅读更多

相关文章

Seraphine：英雄联盟智能辅助工具的终极完整指南

STM32串口DMA传输实战：用DMA1_Channel4实现零CPU占用的串口数据发送

别再只调API了！用PyTorch从零复现Facenet，搞懂人脸识别背后的度量学习

Kotlin Socket通信避坑指南：从连接超时到编码乱码，一次搞定Android客户端开发

避开这些坑！用jieba做金融文本分析时，你的自定义词典可能白加了（附正确加载与验证方法）

开发者必读：MiniCPM-V-4.6-Thinking API集成与高级参数配置终极指南

为什么92%的AI预测项目失败？——揭开模型上线后准确率断崖式下跌的3层黑箱

OpenArk反Rootkit工具完整使用指南：5大核心功能深度解析

Atlas OS Xbox登录错误0x89235107终极解决方案：从快速修复到深度优化

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

赤铁矿磨矿过程运行优化控制软件系统【附程序】

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因