百度开源 Unlimited OCR 模型:基于 DeepSeek OCR,解析文档告别 AI 越生成越慢
百度于 6 月 22 日开源了一款名为
Unlimited OCR
一、什么是端到端 OCR 模型?先搞清楚背景
在深入 Unlimited OCR 之前,我们先理解一下它所属的“端到端 OCR”是什么。
端到端 OCR 模型
- 检测文字区域 → 裁剪每个区域 → 逐个识别 → 合并结果(步骤多、易出错)
传统 OCR 流程:
- 输入图像 → 直接输出文本序列(一步到位,更高效)
端到端 OCR 流程:
小提示: 端到端模型虽然简洁,但在处理多页长文档时,每生成一个 token 都会扩大 KV cache(键值缓存),导致显存占用和延迟不断上升,用户就会感觉“AI 越解析越慢”。Unlimited OCR 正是为了解决这个问题而设计的。
二、Unlimited OCR 模型的核心亮点
1. 延续 DeepSeek OCR 架构,但更强大
Unlimited OCR 继承了
DeepSeek OCR
DeepEncoder
Mixture-of-Experts(混合专家,MoE)
- 30 亿
总参数量:
- 仅 5 亿(意味着实际运行时计算量很小,速度更快)
推理时激活参数:
2. 两级视觉编码 + 16 倍 token 压缩,从源头减轻负担
编码端采用
两级视觉编码
16 倍 token 压缩
- 原本 1024×1024 的 PDF 图像,会被压缩为 仅 256 个视觉 token,大幅降低预填充阶段的显存和计算开销。
小提示: token 压缩就像把一本书的每一页都浓缩成一句话,AI 处理起来自然快得多。这是 Unlimited OCR 能够“越生越快”的关键技术。
3. 训练数据与配置
- 基于 DeepSeek OCR 检查点继续训练 ,冻结 DeepEncoder,只训练解码器。
4000 步
- 训练数据约 ,运行在 8×16 A800 GPU 上。
200 万份文档样本
- 数据配比:单页与多页约 ,多页样本通过拼接构造(保证模型能处理长文档)。
9:1
三、基准测试成绩:全面超越 DeepSeek OCR
Unlimited OCR 在权威评测基准上表现出色,以下是关键数据:
| 评测项目 | Unlimited OCR | DeepSeek OCR | DeepSeek OCR 2 |
|---|---|---|---|
OmniDocBench v1.5 整体得分 |
93.23 | 87.01 | 89.17 |
| 文本编辑距离 | 0.038 | — | — |
| 公式 CDM | 92.61 | — | — |
| 表格 TEDS | 90.93 | — | — |
| 读序编辑距离 | 0.045 | — | — |
OmniDocBench v1.6 整体得分 |
93.92 | — | — |
小提示: 文本编辑距离越低越好(0.038 表示错误极少),公式 CDM 和表格 TEDS 越高越好,说明公式和表格的识别准确率极高。
四、常见问题解答
Q1:Unlimited OCR 和普通 OCR 有什么本质区别?
普通 OCR 通常采用两阶段流程(检测→识别),Unlimited OCR 是端到端模型,直接从图像到文本。更重要的是,它通过 token 压缩和 MoE 机制解决了长文档解析时越生成越慢的问题。
Q2:这个模型能用在哪些场景?
非常适合需要解析
多页 PDF、扫描书籍、长篇合同、学术论文
Q3:我如何获取或使用这个模型?
模型已在 GitHub 开源(项目名 Unlimited OCR Works,目前已获 6.8K Star)。你可以从官方仓库下载预训练权重,或通过 Hugging Face 等平台调用。建议使用 8×16 A800 级别 GPU 进行训练或微调。
Q4:模型对硬件要求高吗?
推理时仅激活 5 亿参数,显存占用较低。通常单张 A100 或 RTX 4090 就能流畅运行单页/少量多页文档。训练则需要多卡环境(如 8×16 A800)。
五、总结:为什么 Unlimited OCR 值得关注?
Unlimited OCR 不仅延续了 DeepSeek OCR 的优秀基因,更通过 token 压缩、MoE 解码器 等创新设计,真正实现了“越生越快”的愿景。在 OmniDocBench 评测中全面超越前代模型,尤其适合企业级长文档解析需求。如果你是开发者或研究者,不妨在 GitHub 上体验一下,或许能成为你文档处理流水线的核心组件。

Unlimited OCR Works Welcome the Era of One-shot Long-horizon Parsing
Unlimited OCR Works 的 GitHub 页面(已获 6.8K Star)