PaddleOCR 是百度的 OCR 与文档 AI 引擎,其定位已经转变。它起初是一个强大的多语言 OCR 库,如今把自己框定为”把任意 PDF 或图像变成结构化、LLM 就绪的数据”的途径。这个重新定位就是故事所在:PaddleOCR 越来越瞄准 RAG 和 agent 管线,而不只是抽文字。本文讲清当前模型阵容给你什么,以及采用前应权衡的那一个架构取舍。

它现在做什么

3.x 线提供了几个可组合的模型:

  • PP-OCRv5,覆盖 100+ 语言的通用 OCR,含可在普通硬件上跑的轻量模型。
  • PP-StructureV3,带表格和文本细粒度坐标的版面分析,把 PDF 和图像转成 markdown 或 JSON。
  • PaddleOCR-VL,一个紧凑的文档视觉语言模型(不到 1B),在文档 benchmark 上报告高准确率,输出结构化 markdown 和 JSON。
  • 针对表格公式的专项识别,加上做 LLM 辅助关键信息抽取的 PP-ChatOCR

轨迹很清楚:从”读出文字”走向”理解文档”,VL 模型是最新的一层(v3.6 版本在 2026 年年中落地)。

安装

pip install paddlepaddle      # 或 paddlepaddle-gpu 走 CUDA
pip install paddleocr
from paddleocr import PaddleOCR
ocr = PaddleOCR()
result = ocr.predict("image.png")   # 文字加坐标

要做文档解析,装可选项(paddleocr[doc-parser]),用更高层的 pipeline(PaddleOCR-VL、PP-StructureV3)。它支持 CPU 和 GPU,用 NVIDIA CUDA 加速。

要权衡的取舍

这是 README 说得轻的判断。PaddleOCR 与 PaddlePaddle 深度学习框架紧耦合,而非多数团队默认的 PyTorch 生态。这个耦合买到的是百度一体化的部署能力(服务端、边缘、PaddleX 层)和一流的中文识别;付出的是生态熟悉度:你要安装并锁定 paddlepaddle,而 PaddleOCR、PaddleX 与 PaddlePaddle 之间的版本兼容是反复出现的摩擦源。如果你的栈是 PyTorch 原生的,把这个集成成本算进去。

适合与不适合

适合:中文为主的文档、混合语言页面,以及不止要纯文本、还要版面/表格/公式的管线。它是中文 OCR 和文档理解最强的开源选项。不太适合:你想要一个微型、单一用途、依赖极少的文字读取器,或者 PyTorch 团队里不欢迎 PaddlePaddle 依赖。后者用更轻的引擎更省事。

横向对比

项目长处Stars(2026-06)
PaddlePaddle/PaddleOCR中文 OCR + 文档 AI,版面/表格/VL~82k
tesseract-ocr/tesseract经典,语言覆盖广~75k
JaidedAI/EasyOCR易用的 PyTorch OCR~30k
mindee/doctr轻量文档 OCR,PyTorch/TF~6k

Tesseract 是没有现代文档理解的老牌基线;EasyOCR 是易上手的 PyTorch 路径;doctr 是轻量文档选项。PaddleOCR 的独特优势是 VL 文档模型加中文准确率,代价是上面那个框架耦合。

issue 里的坑

长历史显示反复的痛点是环境,而非准确率:

  • PaddlePaddle 框架版本兼容和 CUDA/计算能力要求引发最多讨论(例如老显卡 T4/V100 上的 GPU dtype 不匹配,见 PaddleOCR-VL 部署 FAQ #16823)。
  • 2.x 到 3.x 的重构改了模型格式和依赖链(PaddleX 现在夹在 PaddleOCR 与 PaddlePaddle 之间),所以升级旧代码并不无缝。
  • 文档中英混杂且滞后于新版本,最新模型在发布时的文档可能很薄。

为安装时间做预案,锁好版本,投产前先读你的 GPU 对应的部署 FAQ。

FAQ

PaddleOCR 需要 GPU 吗? 不需要,轻量模型用 CPU 能跑,但文档和 VL 管线用 CUDA GPU 快得多。先查你显卡对应的部署 FAQ,因为 T4、V100 这类老 GPU 在 PaddleOCR-VL 上遇到过 dtype 不匹配问题。

PaddleOCR 必须装 PaddlePaddle 吗? 是,模型基于百度框架而非 PyTorch 构建。回报是一体化部署和顶级中文准确率;代价是安装并锁定 paddlepaddle,并管理 PaddleOCR、PaddleX 与框架之间的兼容。

PaddleOCR 适合中文 OCR 吗? 适合。对中文文本、混合语言页面和中文文档理解,PaddleOCR 是最强的开源选项,覆盖深至古籍和印章文字。仅拉丁文 OCR 的话,更轻的引擎可能就够。

PaddleOCR 怎么从 2.x 升级到 3.x? 并不无缝。重构改了模型格式、并把 PaddleX 插进依赖链,预期要回头改代码并锁定 PaddleOCR、PaddleX 与 PaddlePaddle 的版本。

PaddleOCR 能从 PDF 抽表格和公式吗? 能。PP-StructureV3 用细粒度坐标处理版面和表格,专项模型识别公式,PaddleOCR-VL 文档模型输出结构化 markdown 和 JSON,供 RAG 和 agent 管线用。

相关阅读

如果目标是把文档喂给模型,把 PaddleOCR 与 microsoft/markitdown 搭配做 markdown 转换,与 firecrawl/firecrawl 搭配处理网页来源。