首页 > 教程攻略 > ai资讯 >LocateAnything - 英伟达推出的视觉语言定位模型

LocateAnything - 英伟达推出的视觉语言定位模型

来源:互联网 时间:2026-07-01 15:43:08

LocateAnything是什么

先说结论:英伟达最新推出的视觉语言定位模型LocateAnything,用一个模型就把多目标检测、GUI元素定位、OCR文本检测、点级指向这些活儿全包了。用户只需要输入自然语言描述,模型就能在图像中精准框选出目标。这个模型的核心亮点在于,它的推理速度在单张H100上能达到12.7 BPS——对,你没看错,这个速度比Qwen3-VL快了整整10倍。在LVIS这类权威基准测试上,它也刷新了SOTA成绩。从机器人操控到文档智能,再到自动驾驶感知,这套方案都给出了一个实用的统一解。

LocateAnything的主要功能

功能清单看起来很长,但本质上每一条都紧扣“视觉定位”这个核心命题:

  • 指代表达定位

    :用户说“那个穿红衣服的人”,模型就能找到并把框画出来。
  • 多目标密集检测

    :同时检测图像中的多个物体类别,输出密集的边界框集合,不需要反复调用。
  • GUI 元素定位

    :识别界面中的按钮、输入框等交互元素,还支持输出点级坐标。
  • 文本检测与 OCR

    :定位文字区域,文档、场景文字、表格结构都能识别。
  • 点级定位

    :输出精确的点坐标,适合精细化的指向任务。
  • 混合推理模式

    :默认走快速并行模式,遇到复杂场景会自动切换回稳定的串行模式——相当于给模型上了个保险。

LocateAnything的技术原理

技术层面,有几件事做得很有意思:

  • 并行框解码(PBD)

    :这不是传统的一个token一个token串行生成边界框,而是将每个边界框或点视为原子单元,单次前向传播中并行输出完整坐标集 (x1,y1,x2,y2)。理解了这个,就理解它为什么快。
  • 模型架构

    :采用 Moon-ViT 视觉编码器提取原生分辨率的视觉特征,经过双层 MLP 投影器映射后,送入 Qwen2.5 语言解码器进行定位推理。
  • 结构化输出

    :通过 这样的特殊 token 组织输出结果,生成语义块、框块、负样本块和结束块。
  • 混合推理模式

    :关于这一点刚才提过——MTP 模式主打高吞吐,一旦遇到格式异常或空间歧义,自动无缝回退到 NTP 串行模式。
  • 纠正性重解码

    :并行解码如果检测到框结构畸形或坐标冲突,系统会自动丢弃问题块,回退到已验证前缀,用 NTP 重新生成修正结果。这种容错机制,在工程落地时非常实用。

如何使用LocateAnything

动手体验的流程不复杂,几步就能跑起来:

  • 环境准备

    :从 GitHub 克隆 Eagle 仓库,进入 Embodied 目录执行 pip install -e . 完成依赖安装。
  • 模型加载

    :导入 LocateAnythingWorker 类并实例化,加载 Hugging Face 上的 nvidia/LocateAnything-3B 预训练权重。
  • 目标检测

    :调用 detect() 方法,传入图像和类别名称列表(如 ["person", "car"]),模型返回所有匹配目标的边界框坐标。
  • 短语定位

    :用 ground_multi() 方法输入图像和描述文本(如 "people wearing red shirts"),定位符合语义描述的目标。
  • 文本检测

    :调用 detect_text(),模型自动识别图像中的文字区域并输出对应的边界框。
  • GUI 定位

    :通过 ground_gui() 定位界面元素,设置 output_type="point" 可以输出点坐标而不是边界框。
  • 点级指向

    :使用 point() 方法输入图像和描述,获取指定目标的精确单点坐标。
  • 批量推理

    :配置 la_flash 运行时并将 batch_utils/ 加入 PYTHONPATH,调用 detect_batch() 同时处理多组图像-查询对。
  • 结果解析

    :提取输出中 标签内的整数坐标(范围 0-1000),除以 1000 后映射到原始图像的宽高像素值。
  • 微调适配

    :准备 JSONL 数据配方,使用 torchrun 启动全量微调脚本,或运行 LoRA 脚本冻结主干,只训练投影器与低秩适配层。

LocateAnything的核心优势

  • 速度领先

    :单张 H100 上达到 12.7 BPS,比 Qwen3-VL 快约 10 倍,比 Rex-Omni 快约 2.5 倍。这个差距在实际应用中是非常可感的。
  • 精度 SOTA

    :在 LVIS、M6Doc、ScreenSpot-Pro、DocLayNet 等多个基准上均达到最佳性能,不是单项突出,而是全面覆盖。
  • 通用统一

    :单一模型搞定检测、定位、GUI、OCR、布局等多种任务,不用为不同场景切换专用模型,维护成本大大降低。
  • 几何一致性

    :并行解码保留了框内坐标的几何耦合关系,避免了串行生成常见的结构畸形问题。
  • 显存优化

    :通过 la_flash 运行时,在 A100 等GPU上可将峰值显存从 35GB 降至 11GB,降低了部署门槛。

LocateAnything的项目地址

  • 项目官网

    :https://research.nvidia.com/labs/lpr/locate-anything/
  • GitHub仓库

    :https://github.com/NVlabs/Eagle/tree/main/Embodied
  • HuggingFace模型库

    :https://huggingface.co/nvidia/LocateAnything-3B
  • 技术论文

    :https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf

LocateAnything的同类竞品对比

对比维度

LocateAnything-3B

Rex-Omni

所属机构

NVIDIA 英伟达开源社区

产品定位

通用视觉语言定位与检测模型通用视觉定位与理解模型

核心解码技术

并行框解码(PBD),原子化单次预测完整边界框串行/混合坐标 token 生成

推理速度(H100)

12.7 BPS

~5.0 BPS

速度倍数

基准

慢约 2.5 倍

LVIS 精度(F1@Mean)

50.7

46.9

COCO 精度(F1@Mean)

54.7

52.9

Dense200 精度

58.7

58.3

DocLayNet 文档精度

76.8

70.7

M6Doc 文档精度

70.1

55.6

TotalText(OCR)

43.3

40.6

HumanRef 指代定位

68.8

65.4

LocateAnything的应用场景

  • 具身智能与机器人

    :为机器人提供视觉感知能力,通过语言指令定位操作目标,比如“拿起桌上的红色杯子”。
  • 文档智能处理

    :自动识别并框选文档中的标题、表格、段落、印章等结构化元素,适用于扫描件解析和版面分析。
  • GUI 自动化测试

    :定位界面中的按钮、输入框、图标,支撑自动化测试和RPA流程,减少了手工标注的繁琐工作。
  • 自动驾驶感知

    :在街景图像中密集检测车辆、行人、交通标志,输出精准边界框,满足实时性要求。
  • 零售与仓储

    :通过描述快速定位货架上的特定商品或仓库中的目标包裹,提升拣选效率。