首页 > 教程攻略 > ai资讯 >LocateAnything - 英伟达推出的视觉语言定位模型

LocateAnything - 英伟达推出的视觉语言定位模型

来源：互联网时间：2026-07-01 15:43:08

LocateAnything是什么

先说结论：英伟达最新推出的视觉语言定位模型LocateAnything，用一个模型就把多目标检测、GUI元素定位、OCR文本检测、点级指向这些活儿全包了。用户只需要输入自然语言描述，模型就能在图像中精准框选出目标。这个模型的核心亮点在于，它的推理速度在单张H100上能达到12.7 BPS——对，你没看错，这个速度比Qwen3-VL快了整整10倍。在LVIS这类权威基准测试上，它也刷新了SOTA成绩。从机器人操控到文档智能，再到自动驾驶感知，这套方案都给出了一个实用的统一解。

LocateAnything的主要功能

功能清单看起来很长，但本质上每一条都紧扣“视觉定位”这个核心命题：

指代表达定位
：用户说“那个穿红衣服的人”，模型就能找到并把框画出来。
多目标密集检测
：同时检测图像中的多个物体类别，输出密集的边界框集合，不需要反复调用。
GUI 元素定位
：识别界面中的按钮、输入框等交互元素，还支持输出点级坐标。
文本检测与 OCR
：定位文字区域，文档、场景文字、表格结构都能识别。
点级定位
：输出精确的点坐标，适合精细化的指向任务。
混合推理模式
：默认走快速并行模式，遇到复杂场景会自动切换回稳定的串行模式——相当于给模型上了个保险。

LocateAnything的技术原理

技术层面，有几件事做得很有意思：

并行框解码（PBD）
：这不是传统的一个token一个token串行生成边界框，而是将每个边界框或点视为原子单元，单次前向传播中并行输出完整坐标集 (x1,y1,x2,y2)。理解了这个，就理解它为什么快。
模型架构
：采用 Moon-ViT 视觉编码器提取原生分辨率的视觉特征，经过双层 MLP 投影器映射后，送入 Qwen2.5 语言解码器进行定位推理。
结构化输出
：通过、这样的特殊 token 组织输出结果，生成语义块、框块、负样本块和结束块。
混合推理模式
：关于这一点刚才提过——MTP 模式主打高吞吐，一旦遇到格式异常或空间歧义，自动无缝回退到 NTP 串行模式。
纠正性重解码
：并行解码如果检测到框结构畸形或坐标冲突，系统会自动丢弃问题块，回退到已验证前缀，用 NTP 重新生成修正结果。这种容错机制，在工程落地时非常实用。

如何使用LocateAnything

动手体验的流程不复杂，几步就能跑起来：

环境准备
：从 GitHub 克隆 Eagle 仓库，进入 Embodied 目录执行 pip install -e . 完成依赖安装。
模型加载
：导入 LocateAnythingWorker 类并实例化，加载 Hugging Face 上的 nvidia/LocateAnything-3B 预训练权重。
目标检测
：调用 detect() 方法，传入图像和类别名称列表（如 ["person", "car"]），模型返回所有匹配目标的边界框坐标。
短语定位
：用 ground_multi() 方法输入图像和描述文本（如 "people wearing red shirts"），定位符合语义描述的目标。
文本检测
：调用 detect_text()，模型自动识别图像中的文字区域并输出对应的边界框。
GUI 定位
：通过 ground_gui() 定位界面元素，设置 output_type="point" 可以输出点坐标而不是边界框。
点级指向
：使用 point() 方法输入图像和描述，获取指定目标的精确单点坐标。
批量推理
：配置 la_flash 运行时并将 batch_utils/ 加入 PYTHONPATH，调用 detect_batch() 同时处理多组图像-查询对。
结果解析
：提取输出中标签内的整数坐标（范围 0-1000），除以 1000 后映射到原始图像的宽高像素值。
微调适配
：准备 JSONL 数据配方，使用 torchrun 启动全量微调脚本，或运行 LoRA 脚本冻结主干，只训练投影器与低秩适配层。

LocateAnything的核心优势

速度领先
：单张 H100 上达到 12.7 BPS，比 Qwen3-VL 快约 10 倍，比 Rex-Omni 快约 2.5 倍。这个差距在实际应用中是非常可感的。
精度 SOTA
：在 LVIS、M6Doc、ScreenSpot-Pro、DocLayNet 等多个基准上均达到最佳性能，不是单项突出，而是全面覆盖。
通用统一
：单一模型搞定检测、定位、GUI、OCR、布局等多种任务，不用为不同场景切换专用模型，维护成本大大降低。
几何一致性
：并行解码保留了框内坐标的几何耦合关系，避免了串行生成常见的结构畸形问题。
显存优化
：通过 la_flash 运行时，在 A100 等GPU上可将峰值显存从 35GB 降至 11GB，降低了部署门槛。

LocateAnything的项目地址

项目官网
：https://research.nvidia.com/labs/lpr/locate-anything/
GitHub仓库
：https://github.com/NVlabs/Eagle/tree/main/Embodied
HuggingFace模型库
：https://huggingface.co/nvidia/LocateAnything-3B
技术论文
：https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf

LocateAnything的同类竞品对比

对比维度	LocateAnything-3B	Rex-Omni
所属机构	NVIDIA 英伟达	开源社区
产品定位	通用视觉语言定位与检测模型	通用视觉定位与理解模型
核心解码技术	并行框解码（PBD），原子化单次预测完整边界框	串行/混合坐标 token 生成
推理速度（H100）	12.7 BPS	~5.0 BPS
速度倍数	基准	慢约 2.5 倍
LVIS 精度（F1@Mean）	50.7	46.9
COCO 精度（F1@Mean）	54.7	52.9
Dense200 精度	58.7	58.3
DocLayNet 文档精度	76.8	70.7
M6Doc 文档精度	70.1	55.6
TotalText（OCR）	43.3	40.6
HumanRef 指代定位	68.8	65.4

LocateAnything的应用场景

具身智能与机器人
：为机器人提供视觉感知能力，通过语言指令定位操作目标，比如“拿起桌上的红色杯子”。
文档智能处理
：自动识别并框选文档中的标题、表格、段落、印章等结构化元素，适用于扫描件解析和版面分析。
GUI 自动化测试
：定位界面中的按钮、输入框、图标，支撑自动化测试和RPA流程，减少了手工标注的繁琐工作。
自动驾驶感知
：在街景图像中密集检测车辆、行人、交通标志，输出精准边界框，满足实时性要求。
零售与仓储
：通过描述快速定位货架上的特定商品或仓库中的目标包裹，提升拣选效率。

LocateAnything - 英伟达推出的视觉语言定位模型

LocateAnything是什么

LocateAnything的主要功能

指代表达定位

多目标密集检测

GUI 元素定位

文本检测与 OCR

点级定位

混合推理模式

LocateAnything的技术原理

并行框解码（PBD）

模型架构

结构化输出

混合推理模式

纠正性重解码

如何使用LocateAnything

环境准备

模型加载

目标检测

短语定位

文本检测

GUI 定位

点级指向

批量推理

结果解析

微调适配

LocateAnything的核心优势

速度领先

精度 SOTA

通用统一

几何一致性

显存优化

LocateAnything的项目地址

项目官网

GitHub仓库

HuggingFace模型库

技术论文

LocateAnything的同类竞品对比

LocateAnything-3B

Rex-Omni

所属机构

产品定位

核心解码技术

推理速度（H100）

12.7 BPS

速度倍数

慢约 2.5 倍

LVIS 精度（F1@Mean）

50.7

COCO 精度（F1@Mean）

54.7

Dense200 精度

58.7

DocLayNet 文档精度

76.8

M6Doc 文档精度

70.1

TotalText（OCR）

43.3

HumanRef 指代定位

68.8

LocateAnything的应用场景

具身智能与机器人

文档智能处理

GUI 自动化测试

自动驾驶感知

零售与仓储

相关阅读

相关下载