LocateAnything全称为LocateAnything: Fast and High-Quality Vision-Language Grounding并行框解码视觉语言定位模型。开源了 LocateAnything-3B30 亿参数。模型定位通用开放词汇视觉定位基座一句话文本指令→图像自动输出目标包围框统一开放域检测、指代定位、UI 控件拾取、OCR 文字框选四大任务主打高速 高精度面向机器人抓取、AI 智能体、工控视觉、自动 GUI 操作场景。非商用免费开源商用需联系英伟达授权。1.传统VLM缺陷主流 VLMsGPT4V、Qwen-VL自回归逐 Token 生成坐标框[x1,y1,x2,y2]拆成 4 组数字逐个字符解码串行生成1速度慢单个目标 4 次解码多物体叠加时延暴涨2误差累积第一个坐标出错整框报废、几何失真2.模型创新PBDParallel Box Decoding 并行框解码原理把整框 (x1,y1,x2,y2) 当做 1 个不可拆分的原子单元一步并行全量预测不再拆分坐标 Token1视觉编码器提取图像全局特征文本编码器解析查询指令自然语言2解码器一次性批量输出所有目标完整包围框单步输出 4 个坐标3天然保留框几何约束不会出现坐标错位、长宽畸形。性能提升推理吞吐量≈传统自回归模型2.510 倍H100 混合模式可达12.7 框 / 秒 (BPS)满足机器人实时毫秒级定位。3.三种推理运行模式如下表所示模式适用场景特点Fast 快速机器人实时抓取、端侧工控、在线实时检测纯 PBD 并行解码速度最优牺牲极少量精度Slow 高精度数据集标注、离线质检、高精度测量传统自回归解码精度拉满、速度偏低Hybrid 混合默认通用部署默认 Fast场景歧义 / 识别异常自动切 Slow兼顾速度 精度4.训练数据集LocateAnything-Data业界超大定位数据集自研百万级多域标注库1200 万张独立图像 1.38 亿条文本查询 7.85 亿标注包围框覆盖 5 大领域通用自然物体、机器人实操场景、手机 / 电脑 GUI 界面、文档 OCR、自动驾驶路面目标优势开箱即用零样本不用微调即可识别任意新词、小众工业零件。5.支持的任务和优势1开放词汇通用目标检测输入 “图里所有黑色手机”自动框出全部手机不限预定义类别2指代表达定位“画面右侧胶带下方的绿色方格板”精准框选指代物体机器人抓取刚需3GUI 界面元素定位“屏幕所有按钮 / 输入框”AI 自动化点控、键鼠自动化4OCR 文本框选“框出图片内所有汉字”文字区域坐标提取5点提示辅助定位配合打点 文本混合 Prompt疑难物体精准框选。相比传统的优势如下1定位 AP 精度现有开源 VLMsQwen-VL、LLaVA5%~12%2同等精度下推理耗时仅传统方案 1/33密集杂物堆叠场景多零件混放零样本鲁棒性突出适配工业杂乱工件定位。6.和SAM/YOLO 区别1YOLO 系列闭集预定义类别新增工件必须重新标注训练LocateAnything开放词汇自然语言任意新词零样本识别2SAM 分割点 / 框提示做像素分割不能文本指令LocateAnything纯文本输入出检测框侧重目标定位推理更快互补方案LocateAnything 出目标包围框→框内送入 SAM 做精细像素分割工业视觉常用组合。7.应用部署使用 NVIDIA 官方开源 LocateAnything-3B支持自然语言指令检测任意物体人、车、工件、缺陷、零件、文字、按钮… 都可以。1环境要求Python 3.9PyTorch 2.0CUDA 11.7必须有 NVIDIA 显卡显存 ≥ 10GB推荐 16GB 以上如 RTX 3090/4090。2环境配置pip install torch torchvision transformers pillow opencv-python模型下载nvidia/LocateAnything-3B3目标检测纯目标检测模式输入图片 文本指令 → 输出所有目标框代码如下import cv2 import torch from PIL import Image from transformers import AutoModel, AutoTokenizer # 1. 加载模型 model_name nvidia/LocateAnything-3B tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModel.from_pretrained( model_name, torch_dtypetorch.float16, trust_remote_codeTrue ).cuda().eval() # 2. 加载图片 image_path test.jpg # 你要检测的图片 image Image.open(image_path).convert(RGB) # 3. 输入检测指令 # 想检测什么就写什么 prompt 找出图中的所有杯子 # prompt 框出所有轴承工件 # prompt 找到图中的红色零件 # 4. 推理 with torch.no_grad(): boxes model.predict_boxes( imageimage, promptprompt, tokenizertokenizer, max_boxes20, # 最多检测多少个物体 conf_thres0.3, # 置信度阈值 devicecuda ) # 5. 绘制结果 img cv2.imread(image_path) for box in boxes: x1, y1, x2, y2 map(int, box) cv2.rectangle(img, (x1, y1), (x2, y2), (0, 255, 0), 2) cv2.imwrite(result.jpg, img) print(检测完成输出框坐标, boxes)4检测应用技巧(1)检测任意物体开放词汇不用训练想检测什么直接写自然语言就行prompt 找出图中的所有螺丝 prompt 找到所有黑色橡胶圈 prompt 框出所有金属工件 prompt 找出图中的缺陷 prompt 找到所有按钮。2控制检测数量max_boxes10 # 最多检测10个conf_thres0.5 # 置信度越高框越少越准3支持复杂描述比 YOLO 强得多prompt 找到桌子上的白色杯子prompt 框出右上角的零件prompt 找到图片中间最大的那个物体4支持多类别同时检测prompt 找出图中的杯子、瓶子、键盘检测效果如下图所示
NVIDA开源视觉定位神器:LocateAnything
发布时间:2026/6/4 3:05:14
LocateAnything全称为LocateAnything: Fast and High-Quality Vision-Language Grounding并行框解码视觉语言定位模型。开源了 LocateAnything-3B30 亿参数。模型定位通用开放词汇视觉定位基座一句话文本指令→图像自动输出目标包围框统一开放域检测、指代定位、UI 控件拾取、OCR 文字框选四大任务主打高速 高精度面向机器人抓取、AI 智能体、工控视觉、自动 GUI 操作场景。非商用免费开源商用需联系英伟达授权。1.传统VLM缺陷主流 VLMsGPT4V、Qwen-VL自回归逐 Token 生成坐标框[x1,y1,x2,y2]拆成 4 组数字逐个字符解码串行生成1速度慢单个目标 4 次解码多物体叠加时延暴涨2误差累积第一个坐标出错整框报废、几何失真2.模型创新PBDParallel Box Decoding 并行框解码原理把整框 (x1,y1,x2,y2) 当做 1 个不可拆分的原子单元一步并行全量预测不再拆分坐标 Token1视觉编码器提取图像全局特征文本编码器解析查询指令自然语言2解码器一次性批量输出所有目标完整包围框单步输出 4 个坐标3天然保留框几何约束不会出现坐标错位、长宽畸形。性能提升推理吞吐量≈传统自回归模型2.510 倍H100 混合模式可达12.7 框 / 秒 (BPS)满足机器人实时毫秒级定位。3.三种推理运行模式如下表所示模式适用场景特点Fast 快速机器人实时抓取、端侧工控、在线实时检测纯 PBD 并行解码速度最优牺牲极少量精度Slow 高精度数据集标注、离线质检、高精度测量传统自回归解码精度拉满、速度偏低Hybrid 混合默认通用部署默认 Fast场景歧义 / 识别异常自动切 Slow兼顾速度 精度4.训练数据集LocateAnything-Data业界超大定位数据集自研百万级多域标注库1200 万张独立图像 1.38 亿条文本查询 7.85 亿标注包围框覆盖 5 大领域通用自然物体、机器人实操场景、手机 / 电脑 GUI 界面、文档 OCR、自动驾驶路面目标优势开箱即用零样本不用微调即可识别任意新词、小众工业零件。5.支持的任务和优势1开放词汇通用目标检测输入 “图里所有黑色手机”自动框出全部手机不限预定义类别2指代表达定位“画面右侧胶带下方的绿色方格板”精准框选指代物体机器人抓取刚需3GUI 界面元素定位“屏幕所有按钮 / 输入框”AI 自动化点控、键鼠自动化4OCR 文本框选“框出图片内所有汉字”文字区域坐标提取5点提示辅助定位配合打点 文本混合 Prompt疑难物体精准框选。相比传统的优势如下1定位 AP 精度现有开源 VLMsQwen-VL、LLaVA5%~12%2同等精度下推理耗时仅传统方案 1/33密集杂物堆叠场景多零件混放零样本鲁棒性突出适配工业杂乱工件定位。6.和SAM/YOLO 区别1YOLO 系列闭集预定义类别新增工件必须重新标注训练LocateAnything开放词汇自然语言任意新词零样本识别2SAM 分割点 / 框提示做像素分割不能文本指令LocateAnything纯文本输入出检测框侧重目标定位推理更快互补方案LocateAnything 出目标包围框→框内送入 SAM 做精细像素分割工业视觉常用组合。7.应用部署使用 NVIDIA 官方开源 LocateAnything-3B支持自然语言指令检测任意物体人、车、工件、缺陷、零件、文字、按钮… 都可以。1环境要求Python 3.9PyTorch 2.0CUDA 11.7必须有 NVIDIA 显卡显存 ≥ 10GB推荐 16GB 以上如 RTX 3090/4090。2环境配置pip install torch torchvision transformers pillow opencv-python模型下载nvidia/LocateAnything-3B3目标检测纯目标检测模式输入图片 文本指令 → 输出所有目标框代码如下import cv2 import torch from PIL import Image from transformers import AutoModel, AutoTokenizer # 1. 加载模型 model_name nvidia/LocateAnything-3B tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModel.from_pretrained( model_name, torch_dtypetorch.float16, trust_remote_codeTrue ).cuda().eval() # 2. 加载图片 image_path test.jpg # 你要检测的图片 image Image.open(image_path).convert(RGB) # 3. 输入检测指令 # 想检测什么就写什么 prompt 找出图中的所有杯子 # prompt 框出所有轴承工件 # prompt 找到图中的红色零件 # 4. 推理 with torch.no_grad(): boxes model.predict_boxes( imageimage, promptprompt, tokenizertokenizer, max_boxes20, # 最多检测多少个物体 conf_thres0.3, # 置信度阈值 devicecuda ) # 5. 绘制结果 img cv2.imread(image_path) for box in boxes: x1, y1, x2, y2 map(int, box) cv2.rectangle(img, (x1, y1), (x2, y2), (0, 255, 0), 2) cv2.imwrite(result.jpg, img) print(检测完成输出框坐标, boxes)4检测应用技巧(1)检测任意物体开放词汇不用训练想检测什么直接写自然语言就行prompt 找出图中的所有螺丝 prompt 找到所有黑色橡胶圈 prompt 框出所有金属工件 prompt 找出图中的缺陷 prompt 找到所有按钮。2控制检测数量max_boxes10 # 最多检测10个conf_thres0.5 # 置信度越高框越少越准3支持复杂描述比 YOLO 强得多prompt 找到桌子上的白色杯子prompt 框出右上角的零件prompt 找到图片中间最大的那个物体4支持多类别同时检测prompt 找出图中的杯子、瓶子、键盘检测效果如下图所示