首页 > 教程攻略 > ai资讯 >PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms

PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms

来源:互联网 时间:2026-06-15 13:40:00

从2020年5月到去年5月,PP-OCR系列从v1一路迭代到v5,凭借极致的速度与精度平衡,早已成为OCR界的顶流——在UmiOCR、MinerU、TurboOCR等业界工具链中,它几乎都是核心引擎;在各大模型团队的数据处理流程里,更是不可或缺的基础设施。团队多年前的一个想法,生根发芽,如今已长成大模型时代的数据引擎。感谢广大开发者持续的反馈,让我们有机会不断迭代。

今天,正式发布PP-OCRv6——文本检测识别任务实现了一次跨越式进步。

PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms

PP-OCRv6已上线PaddleOCR官网,用户可通过网页或API快速使用。同时,代码和模型权重已开源至Github和HuggingFace,欢迎下载使用。

PaddleOCR官网:https://paddleocr.com

Github:https://github.com/PaddlePaddle/PaddleOCR

HuggingFace:https://huggingface.co/collections/PaddlePaddle/pp-ocrv6

本文不做技术详解,主要快速传递本次升级的核心能力,后续会再拆解技术细节。

PP-OCRv6特性速览

1. 首次三档模型,全算力覆盖


PP-OCR系列首次推出三档模型:Tiny(1.5M)、Small(7.7M)、Medium(34.5M)。从浏览器端、嵌入式设备到服务器,几乎覆盖所有主流算力平台,按需选择,开箱即用。

2. 精度跨越式提升


文字检测精度较PP-OCRv5同级别模型提升4.9%,文字识别精度提升5.1%。不是微调级别的涨点,而是跨越式的代际提升。

3. CPU推理速度显著提升


同级别中,PP-OCRv6_medium的端到端时延仅为1.40s(基于Intel Xeon与OpenVINO优化),速度达到前代PP-OCRv5_Server的5.2倍。而超轻量级的tiny档更炸裂——在纯前端浏览器环境的极低算力下,直接轰出单图97ms的惊人成绩。

4. 场景覆盖大幅扩展


单模型支持50种语言,远超PP-OCRv5单模型的4种。此外,新增电路板、数码管、CAD图纸、喷码点阵字符等多种工业场景的文字检测与识别,真实复杂场景适用性大幅增强。

5. 鲁棒性史上最高


文字检测多尺寸预测一致性方差仅5.19%,较PP-OCRv5降低35%;文字识别边缘尺寸扰动评估集上,预测一致性提升20.5%。

01 效果预览

1. 文本检测(与PP-OCRv5和部分大模型的对比)

PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms

2. 端到端识别(与PP-OCRv5的对比)

PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms

PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms >>>左右滑动查看更多>>> PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms >>>左右滑动查看更多>>> PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms >>>左右滑动查看更多>>> PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms >>>左右滑动查看更多>>> PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms >>>左右滑动查看更多>> PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms >>>左右滑动查看更多>>> PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms >>>左右滑动查看更多>>> PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms >>>左右滑动查看更多>>>

02 核心指标

基于多场景高质量文本检测和识别的In-house评估集,PP-OCRv6在检测和识别两项任务上大幅领先前代。

1. 文本检测

PP-OCRv6的三档模型几乎全面领先PP-OCRv5,并且断档式领先通用大模型。

PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms

2. 文本识别

同样,PP-OCRv6的三档模型领先PP-OCRv5和通用大模型。

PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms

3. 推理速度

在多款主流硬件测试中,PP-OCRv6全面碾压PP-OCRv5。具体来说,PP-OCRv6_medium在Intel Xeon 8350C CPU上的单图推理时延仅1.4s,是PP-OCRv5_Server的5.2倍。在移动端与边缘端,PP-OCRv6_small在多种推理后端上全方位超越PP-OCRv5_Mobile。而极致轻量化的PP-OCRv6_tiny更惊艳——在Intel Xeon 8350C CPU上耗时缩至0.2s,在本地M4芯片浏览器环境测试常规图片时,端到端延迟甚至只有97ms。这种在各类算力平台上的指数级性能飞跃,无疑是端侧及全栈OCR开发者的福音。

PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms

03 快速开始

安装飞桨框架与PaddleOCR(3.7.0及以上版本):

python -m pip install paddlepaddle==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
python -m pip install "paddleocr>=3.7.0"

在命令行快速体验PP-OCRv6能力(3.7.0及以上版本的默认PP-OCR模型已切换到v6版本):

paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png 
    --use_doc_orientation_classify False 
    --use_doc_unwarping False 
    --use_textline_orientation False

也可以调用Python API,集成到下游应用中:

from paddleocr import PaddleOCR

ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)

# 指定模型档位
# ocr = PaddleOCR(
#     text_detection_model_name="PP-OCRv6_tiny_det",
#     text_recognition_model_name="PP-OCRv6_tiny_rec",
#     use_doc_orientation_classify=False,
#     use_doc_unwarping=False,
#     use_textline_orientation=False,
# )

result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
for res in result:
    res.print()
    res.sa ve_to_img("output")
    res.sa ve_to_json("output")

滑动查看更多

此外,PaddleOCR v3.7版本已广泛兼容onnxruntime、transformers后端,可根据当前环境通过指定engine来切换推理后端。例如使用onnxruntime推理,只需增加参数--engine onnxruntime

paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png 
    --use_doc_orientation_classify False 
    --use_doc_unwarping False 
    --use_textline_orientation False 
    --engine onnxruntime

04 FAQ

Q1:PP-OCRv6与PaddleOCR-VL系列模型是什么关系?

A:

两者定位不同,在落地场景上形成完美互补:

  • PP-OCRv6

    :第六代演进,主打极致轻量化与普适性,几乎兼容所有算力平台,核心聚焦自然场景、文档场景及通用工业场景下文本行的高精度、高速度检测与识别。
  • PaddleOCR-VL系列

    :专为复杂文档解析而生,具备强大的多模态解析能力,能一站式识别和结构化提取文字、表格、公式、图表、印章等全要素。

Q2:在现有业务流程中,是否可以将PP-OCRv5“一键平替”到PP-OCRv6?

A:

完全可以,建议直接升级。PP-OCRv6实现架构与数据的双重跃升,同等耗时下精度大幅领先,同等精度下推理延迟显著降低。同时设计上严格规避复杂、非通用算子,硬件亲和力极佳,绝大多数现有管线均可无缝平滑替换。

Q3:PP-OCRv6与PP-OCRv5的模型矩阵如何对应?

A:

PP-OCRv6推出三档模型,对应关系如下:

  • PP-OCRv6_medium

    (34.5M):推理速度对标PP-OCRv5_server,但精度大幅反超。
  • PP-OCRv6_small

    (7.7M):速度对标PP-OCRv5_mobile,移动端/嵌入式设备主力升级款,性价比极高。
  • PP-OCRv6_tiny

    (1.5M):主打极致吞吐与超低延迟,专为资源极度受限的边缘设备打造,无前代直接对标。

更多端侧部署参考文档:

  • 安卓:https://www.paddleocr.ai/latest/version3.x/inference_deployment/cross_platform/android_deployment.html
  • IOS:https://www.paddleocr.ai/latest/version3.x/inference_deployment/cross_platform/ios_deployment.html
  • 浏览器:https://www.paddleocr.ai/latest/version3.x/inference_deployment/cross_platform/browser.html

结语

从2020年到今天,PP-OCR已走过六年征程。从一个团队的想法,成长为业界不可或缺的数据引擎;从实验室的模型,演变为千万开发者手中的利器。技术的价值在于被使用,模型的生命在于被信赖。当PP-OCR出现在越来越多的工具链中,支撑起越来越庞大的数据处理需求,这份信任来之不易,更需倍加珍惜。

未来,PaddleOCR将继续秉持开源开放的初心,与广大开发者同行,持续探索OCR技术的边界,让文字的力量在数字世界中无处不在。感谢每一位使用者、每一条反馈、每一份信任。

让我们一起,用技术点亮文字,用开源照亮未来。