PaddleOCR 是百度的 OCR 与文档 AI 引擎,其定位已经转变。它起初是一个强大的多语言 OCR 库,如今把自己框定为”把任意 PDF 或图像变成结构化、LLM 就绪的数据”的途径。这个重新定位就是故事所在:PaddleOCR 越来越瞄准 RAG 和 agent 管线,而不只是抽文字。本文讲清当前模型阵容给你什么,以及采用前应权衡的那一个架构取舍。
它现在做什么
3.x 线提供了几个可组合的模型:
- PP-OCRv5,覆盖 100+ 语言的通用 OCR,含可在普通硬件上跑的轻量模型。
- PP-StructureV3,带表格和文本细粒度坐标的版面分析,把 PDF 和图像转成 markdown 或 JSON。
- PaddleOCR-VL,一个紧凑的文档视觉语言模型(不到 1B),在文档 benchmark 上报告高准确率,输出结构化 markdown 和 JSON。
- 针对表格和公式的专项识别,加上做 LLM 辅助关键信息抽取的 PP-ChatOCR。
轨迹很清楚:从”读出文字”走向”理解文档”,VL 模型是最新的一层(v3.6 版本在 2026 年年中落地)。
安装
pip install paddlepaddle # 或 paddlepaddle-gpu 走 CUDA
pip install paddleocr
from paddleocr import PaddleOCR
ocr = PaddleOCR()
result = ocr.predict("image.png") # 文字加坐标
要做文档解析,装可选项(paddleocr[doc-parser]),用更高层的 pipeline(PaddleOCR-VL、PP-StructureV3)。它支持 CPU 和 GPU,用 NVIDIA CUDA 加速。
要权衡的取舍
这是 README 说得轻的判断。PaddleOCR 与 PaddlePaddle 深度学习框架紧耦合,而非多数团队默认的 PyTorch 生态。这个耦合买到的是百度一体化的部署能力(服务端、边缘、PaddleX 层)和一流的中文识别;付出的是生态熟悉度:你要安装并锁定 paddlepaddle,而 PaddleOCR、PaddleX 与 PaddlePaddle 之间的版本兼容是反复出现的摩擦源。如果你的栈是 PyTorch 原生的,把这个集成成本算进去。
适合与不适合
适合:中文为主的文档、混合语言页面,以及不止要纯文本、还要版面/表格/公式的管线。它是中文 OCR 和文档理解最强的开源选项。不太适合:你想要一个微型、单一用途、依赖极少的文字读取器,或者 PyTorch 团队里不欢迎 PaddlePaddle 依赖。后者用更轻的引擎更省事。
横向对比
| 项目 | 长处 | Stars(2026-06) |
|---|---|---|
| PaddlePaddle/PaddleOCR | 中文 OCR + 文档 AI,版面/表格/VL | ~82k |
| tesseract-ocr/tesseract | 经典,语言覆盖广 | ~75k |
| JaidedAI/EasyOCR | 易用的 PyTorch OCR | ~30k |
| mindee/doctr | 轻量文档 OCR,PyTorch/TF | ~6k |
Tesseract 是没有现代文档理解的老牌基线;EasyOCR 是易上手的 PyTorch 路径;doctr 是轻量文档选项。PaddleOCR 的独特优势是 VL 文档模型加中文准确率,代价是上面那个框架耦合。
issue 里的坑
长历史显示反复的痛点是环境,而非准确率:
- PaddlePaddle 框架版本兼容和 CUDA/计算能力要求引发最多讨论(例如老显卡 T4/V100 上的 GPU dtype 不匹配,见 PaddleOCR-VL 部署 FAQ #16823)。
- 2.x 到 3.x 的重构改了模型格式和依赖链(PaddleX 现在夹在 PaddleOCR 与 PaddlePaddle 之间),所以升级旧代码并不无缝。
- 文档中英混杂且滞后于新版本,最新模型在发布时的文档可能很薄。
为安装时间做预案,锁好版本,投产前先读你的 GPU 对应的部署 FAQ。
FAQ
PaddleOCR 需要 GPU 吗? 不需要,轻量模型用 CPU 能跑,但文档和 VL 管线用 CUDA GPU 快得多。先查你显卡对应的部署 FAQ,因为 T4、V100 这类老 GPU 在 PaddleOCR-VL 上遇到过 dtype 不匹配问题。
PaddleOCR 必须装 PaddlePaddle 吗? 是,模型基于百度框架而非 PyTorch 构建。回报是一体化部署和顶级中文准确率;代价是安装并锁定 paddlepaddle,并管理 PaddleOCR、PaddleX 与框架之间的兼容。
PaddleOCR 适合中文 OCR 吗? 适合。对中文文本、混合语言页面和中文文档理解,PaddleOCR 是最强的开源选项,覆盖深至古籍和印章文字。仅拉丁文 OCR 的话,更轻的引擎可能就够。
PaddleOCR 怎么从 2.x 升级到 3.x? 并不无缝。重构改了模型格式、并把 PaddleX 插进依赖链,预期要回头改代码并锁定 PaddleOCR、PaddleX 与 PaddlePaddle 的版本。
PaddleOCR 能从 PDF 抽表格和公式吗? 能。PP-StructureV3 用细粒度坐标处理版面和表格,专项模型识别公式,PaddleOCR-VL 文档模型输出结构化 markdown 和 JSON,供 RAG 和 agent 管线用。
相关阅读
如果目标是把文档喂给模型,把 PaddleOCR 与 microsoft/markitdown 搭配做 markdown 转换,与 firecrawl/firecrawl 搭配处理网页来源。