首页 > 教程攻略 > ai资讯 >Unlimited-OCR - 百度开源的端到端长文档 OCR 模型

Unlimited-OCR - 百度开源的端到端长文档 OCR 模型

来源：互联网时间：2026-06-26 14:28:28

Unlimited-OCR是什么

Unlimited-OCR，百度最新推出的端到端长文档OCR模型，一句话总结就是：用常数级的资源消耗，实现数十页文档一次性转录。它的核心秘密在于一套名为Reference Sliding Window Attention（参考滑动窗口注意力）的机制——简单来说，就是让解码器的KV cache从线性增长压缩为常数，不再随页数膨胀。模型采用3B总参数的MoE架构，在OmniDocBench v1.6上以93.92%的总分拿下端到端SOTA，推理速度达到5580 TPS。更难得的是，代码和权重已经全面开源，拿过来就能用。

Unlimited-OCR的主要功能

超长文档一次识别
：支持2页到40+页的PDF文档单次前向转录，告别逐页for循环的繁琐操作。
多类型文档解析
：覆盖PPT、学术论文、书籍、彩色教材、试卷、杂志、报纸、笔记、研究报告等9种常见版式，几乎各行各业都能找到用武之地。
高精度内容提取
：文本、公式、表格、阅读顺序全链路端到端输出，公式CDM达到95.79%，表格TEDS达到93.32%，精度在同类产品中相当能打。
双分辨率视觉编码
：Base模式用1024×1024分辨率处理多页长文档，Gundam模式则用动态分辨率专注单页高精度识别——两种模式按需切换。
常数延迟推理
：无论输出序列有多长，KV cache始终恒定在m+n，推理延迟和显存占用都保持水平稳定，不会有那种“越跑越慢”的尴尬。

Unlimited-OCR的技术原理

R-SWA 注意力机制
：每个生成token只关注全部的参考token（视觉加提示词）以及最近的128个输出token。关键点在于，视觉token被排除在滑动窗口的状态转移之外，长程生成过程中视觉特征就不会被逐步模糊掉。
常数 KV Cache 设计
：把KV cache实现成一个容量为m+n的队列，每生成一个新token，就淘汰第(m+1)个token。这样一来，计算成本和内存占用不再随着序列长度递增——无论输出多长，开销都被锁死。
DeepEncoder 视觉编码
：沿用SAM-ViT级联CLIP-ViT的架构，通过bridge层做16倍token压缩。1024×1024的图像被压缩成256个视觉token，编码一次后冻结，后续不再参与更新。
MoE-LLM 解码器
：3B总参、500M激活的MoE架构，所有注意力层都替换成了R-SWA。基于DeepSeek-OCR的checkpoint续训了4000步，全局batch为256，最大序列长度32K。
推理引擎优化
：在Transformers和SGLang两个推理框架中都实现了常数TPS和常数显存的KV cache管理。配上Flash Attention v3内核，per-call延迟全程保持水平，没有波峰波谷。

如何使用Unlimited-OCR

模型下载
：通过Hugging Face（仓库名baidu/Unlimited-OCR）或GitHub（同名仓库）获取代码与权重，都是公开资源。
环境准备
：支持Transformers库和SGLang推理引擎，配好对应的GPU环境就能跑。
输入格式
：支持PDF页面图像输入。Base模式处理多页长文档，Gundam模式处理单页高分辨率识别，按需选用。
推理调用
：单次前向就能完成整本/整份文档的OCR转录，不需要外部调度器分页，省心不少。
扩展应用
：R-SWA机制并非OCR专属，可以迁移到ASR、翻译、字幕生成等需要“参考源+长输出”的任务上去。

Unlimited-OCR的核心优势

SOTA 识别精度
：OmniDocBench v1.5总分93.23%，v1.6总分93.92%，端到端第一，数据说话。
常数资源占用
：KV cache不随文档页数增长，20页、40+页的长文档，显存和延迟都稳如泰山。
速度随长度放大
：输出越长，优势越明显。在6144 token时，理论TPS上限比DeepSeek-OCR领先大约35%。
通用解码架构
：R-SWA不是OCR专属的trick，理论上任何“参考源+长输出”的生成任务都能套用。
轻量开源
：3B总参、500M激活，模型和代码都开源了，部署和二次开发的门槛很低。

Unlimited-OCR的项目地址

GitHub仓库
：https://github.com/baidu/Unlimited-OCR
HuggingFace模型库
：https://github.com/baidu/Unlimited-OCR

Unlimited-OCR的同类竞品对比

维度	Unlimited-OCR	DeepSeek-OCR
模型规模	3B-A0.5B (MoE)	3B-A0.5B (MoE)
注意力机制	R-SWA（参考滑动窗口注意力）	标准全注意力
KV Cache 增长	常数（m+n），不随序列长度增加	线性增长，随输出序列持续累积
OmniDocBench v1.5 总分	93.23%	87.01%
OmniDocBench v1.6 总分	93.92%	90.25%（DeepSeek-OCR 2）
文本编辑距离	0.038	0.073
公式 CDM	92.61%	83.37%
表格 TEDS	90.93%	84.97%
阅读顺序编辑距离	0.045	0.086
推理速度	5580 TPS，全程常数延迟	4951 TPS，延迟随长度递增
长文档支持	单次前向 40+ 页，无需分页	长序列受限于KV cache膨胀，需分页处理
训练基础	基于DeepSeek-OCR checkpoint续训4000步	基座模型

Unlimited-OCR的应用场景

企业档案数字化
：批量处理成百上千页的扫描版PDF、古籍、合订本，不需要拆分就能一次性结构化提取，效率翻倍。
学术文献解析
：整本论文、期刊合辑、研究报告的端到端转录，公式、表格、阅读顺序全保留，省去后期手动整理的时间。
教育试卷批改
：多页试卷、练习册的批量识别，彩色教材和复杂版式也能应对自如。
法律合同审核
：长篇幅合同文本的精准OCR提取，为后续的NLP分析和合规审查提供干净的数据基础。
多语言翻译流水线
：作为R-SWA通用解码方案的验证场景，可以进一步扩展到ASR、字幕生成等长序列任务，未来想象空间不小。

Unlimited-OCR - 百度开源的端到端长文档 OCR 模型

Unlimited-OCR是什么

Unlimited-OCR的主要功能

超长文档一次识别

多类型文档解析

高精度内容提取

双分辨率视觉编码

常数延迟推理

Unlimited-OCR的技术原理

R-SWA 注意力机制

常数 KV Cache 设计

DeepEncoder 视觉编码

MoE-LLM 解码器

推理引擎优化

如何使用Unlimited-OCR

模型下载

环境准备

输入格式

推理调用

扩展应用

Unlimited-OCR的核心优势

SOTA 识别精度

常数资源占用

速度随长度放大

通用解码架构

轻量开源

Unlimited-OCR的项目地址

GitHub仓库

HuggingFace模型库

Unlimited-OCR的同类竞品对比

模型规模

注意力机制

KV Cache 增长

OmniDocBench v1.5 总分

93.23%

OmniDocBench v1.6 总分

93.92%

文本编辑距离

公式 CDM

表格 TEDS

阅读顺序编辑距离

推理速度

长文档支持

训练基础

Unlimited-OCR的应用场景

企业档案数字化

学术文献解析

教育试卷批改

法律合同审核

多语言翻译流水线

相关阅读

相关下载