百度开源3B模型Unlimited OCR:5天Star破万,刷新长文档解析纪录
来源:互联网
时间:2026-06-30 15:53:35
百度最近开源了一个3B参数规模的端到端OCR模型,名字很直接——Unlimited OCR,专为书籍、论文这类长文档解析场景设计。这个项目上线后反响很快,GitHub和HuggingFace四项趋势榜直接登顶,开源才5天Star就破了万,关注度可见一斑。
技术层面,这个模型实际推理时激活的参数只用到约570M。有意思的是,它首次引入了Reference Sliding Window Attention机制,也就是R-SWA。这个机制打破了传统“逐页解析再拼接”的局限,能做到一次性连续解析几十页文档,而解码阶段的KV Cache还能稳定在一个固定范围——意味着显存占用和计算成本不再跟着输出长度一块儿疯涨。
在OmniDocBench v1.6基准测试里,Unlimited OCR拿下了93.92%的成绩,直接刷新了榜单记录。从真实场景来看,它的推理速度比DeepSeek OCR快了大约12.7%,输出长度到了6000Tokens时,这个优势进一步扩大到35%。对于海量文档数字化和大模型长程记忆管理来说,这条路径确实提供了新的可能。