LocateAnything - 英伟达推出的视觉语言定位模型
来源:互联网
时间:2026-07-01 15:43:08
LocateAnything是什么
先说结论:英伟达最新推出的视觉语言定位模型LocateAnything,用一个模型就把多目标检测、GUI元素定位、OCR文本检测、点级指向这些活儿全包了。用户只需要输入自然语言描述,模型就能在图像中精准框选出目标。这个模型的核心亮点在于,它的推理速度在单张H100上能达到12.7 BPS——对,你没看错,这个速度比Qwen3-VL快了整整10倍。在LVIS这类权威基准测试上,它也刷新了SOTA成绩。从机器人操控到文档智能,再到自动驾驶感知,这套方案都给出了一个实用的统一解。

LocateAnything的主要功能
功能清单看起来很长,但本质上每一条都紧扣“视觉定位”这个核心命题:
- :用户说“那个穿红衣服的人”,模型就能找到并把框画出来。
指代表达定位
- :同时检测图像中的多个物体类别,输出密集的边界框集合,不需要反复调用。
多目标密集检测
- :识别界面中的按钮、输入框等交互元素,还支持输出点级坐标。
GUI 元素定位
- :定位文字区域,文档、场景文字、表格结构都能识别。
文本检测与 OCR
- :输出精确的点坐标,适合精细化的指向任务。
点级定位
- :默认走快速并行模式,遇到复杂场景会自动切换回稳定的串行模式——相当于给模型上了个保险。
混合推理模式
LocateAnything的技术原理
技术层面,有几件事做得很有意思:
- :这不是传统的一个token一个token串行生成边界框,而是将每个边界框或点视为原子单元,单次前向传播中并行输出完整坐标集
并行框解码(PBD)
(x1,y1,x2,y2)。理解了这个,就理解它为什么快。 - :采用 Moon-ViT 视觉编码器提取原生分辨率的视觉特征,经过双层 MLP 投影器映射后,送入 Qwen2.5 语言解码器进行定位推理。
模型架构
- :通过
结构化输出
、这样的特殊 token 组织输出结果,生成语义块、框块、负样本块和结束块。 - :关于这一点刚才提过——MTP 模式主打高吞吐,一旦遇到格式异常或空间歧义,自动无缝回退到 NTP 串行模式。
混合推理模式
- :并行解码如果检测到框结构畸形或坐标冲突,系统会自动丢弃问题块,回退到已验证前缀,用 NTP 重新生成修正结果。这种容错机制,在工程落地时非常实用。
纠正性重解码

如何使用LocateAnything
动手体验的流程不复杂,几步就能跑起来:
- :从 GitHub 克隆 Eagle 仓库,进入
环境准备
Embodied目录执行pip install -e .完成依赖安装。 - :导入
模型加载
LocateAnythingWorker类并实例化,加载 Hugging Face 上的nvidia/LocateAnything-3B预训练权重。 - :调用
目标检测
detect()方法,传入图像和类别名称列表(如["person", "car"]),模型返回所有匹配目标的边界框坐标。 - :用
短语定位
ground_multi()方法输入图像和描述文本(如"people wearing red shirts"),定位符合语义描述的目标。 - :调用
文本检测
detect_text(),模型自动识别图像中的文字区域并输出对应的边界框。 - :通过
GUI 定位
ground_gui()定位界面元素,设置output_type="point"可以输出点坐标而不是边界框。 - :使用
点级指向
point()方法输入图像和描述,获取指定目标的精确单点坐标。 - :配置
批量推理
la_flash运行时并将batch_utils/加入PYTHONPATH,调用detect_batch()同时处理多组图像-查询对。 - :提取输出中
结果解析
标签内的整数坐标(范围 0-1000),除以 1000 后映射到原始图像的宽高像素值。 - :准备 JSONL 数据配方,使用
微调适配
torchrun启动全量微调脚本,或运行 LoRA 脚本冻结主干,只训练投影器与低秩适配层。
LocateAnything的核心优势
- :单张 H100 上达到 12.7 BPS,比 Qwen3-VL 快约 10 倍,比 Rex-Omni 快约 2.5 倍。这个差距在实际应用中是非常可感的。
速度领先
- :在 LVIS、M6Doc、ScreenSpot-Pro、DocLayNet 等多个基准上均达到最佳性能,不是单项突出,而是全面覆盖。
精度 SOTA
- :单一模型搞定检测、定位、GUI、OCR、布局等多种任务,不用为不同场景切换专用模型,维护成本大大降低。
通用统一
- :并行解码保留了框内坐标的几何耦合关系,避免了串行生成常见的结构畸形问题。
几何一致性
- :通过
显存优化
la_flash运行时,在 A100 等GPU上可将峰值显存从 35GB 降至 11GB,降低了部署门槛。
LocateAnything的项目地址
- :https://research.nvidia.com/labs/lpr/locate-anything/
项目官网
- :https://github.com/NVlabs/Eagle/tree/main/Embodied
GitHub仓库
- :https://huggingface.co/nvidia/LocateAnything-3B
HuggingFace模型库
- :https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf
技术论文
LocateAnything的同类竞品对比
| 对比维度 | LocateAnything-3B | Rex-Omni |
|---|---|---|
所属机构 | NVIDIA 英伟达 | 开源社区 |
产品定位 | 通用视觉语言定位与检测模型 | 通用视觉定位与理解模型 |
核心解码技术 | 并行框解码(PBD),原子化单次预测完整边界框 | 串行/混合坐标 token 生成 |
推理速度(H100) | 12.7 BPS | ~5.0 BPS |
速度倍数 | 基准 | 慢约 2.5 倍 |
LVIS 精度(F1@Mean) | 50.7 | 46.9 |
COCO 精度(F1@Mean) | 54.7 | 52.9 |
Dense200 精度 | 58.7 | 58.3 |
DocLayNet 文档精度 | 76.8 | 70.7 |
M6Doc 文档精度 | 70.1 | 55.6 |
TotalText(OCR) | 43.3 | 40.6 |
HumanRef 指代定位 | 68.8 | 65.4 |
LocateAnything的应用场景
- :为机器人提供视觉感知能力,通过语言指令定位操作目标,比如“拿起桌上的红色杯子”。
具身智能与机器人
- :自动识别并框选文档中的标题、表格、段落、印章等结构化元素,适用于扫描件解析和版面分析。
文档智能处理
- :定位界面中的按钮、输入框、图标,支撑自动化测试和RPA流程,减少了手工标注的繁琐工作。
GUI 自动化测试
- :在街景图像中密集检测车辆、行人、交通标志,输出精准边界框,满足实时性要求。
自动驾驶感知
- :通过描述快速定位货架上的特定商品或仓库中的目标包裹,提升拣选效率。
零售与仓储