2025，大模型文档解析（OCR）年终盘点

今天星期几

2025-12-29 17:00:46

文档解析

多模态大模型

图像识别

模型部署

开源大模型

文章转载自[PaperAgent ]

大家好，我是PaperAgent，不是Agent！

今年6月以来文档解析（Document Parsing）方法的快速增长，总结下来有10余种：

有使用需求的小伙伴，可以参考OmniDocBench评分选择使用：在OCR面前，大模型虽好，但恕我直言：开源小模型更香

把这些方案按“技术路线 + 工程形态”两个维度收拢，可以归结为 4 大类：传统级联流水线、模块化专用VLM、通用VLM、端到端专用VLM

1. 传统级联流水线

检测 → 识别 → 版面 → 后处理，每一步独立模型；优点灵活、成本低，缺点误差累积、链路长。

PP-StructureV3

流程包括预处理、OCRv5、版面分析、文档元素识别与后处理，可有效解析图像内容并以结构化数据形式输出。

在OCR面前，大模型虽好，但恕我直言：开源小模型更香

PaddleOCR-V5

流程包括图像预处理、文本区域检测、文本行方向分类和文本识别，最终从图像中提取文字并以结构化文本形式输出。

Mineru2-pipeline

MinerU框架处理工作流：文档预处理/内容解析/内容后处理/格式转换

2. 轻量多模态两段式

先用小模型做版面/阅读顺序，再用“专供 OCR 的小型 VLM”做内容识别；算力比通用大模型省，精度又比流水线高。

PaddleOCR-VL

在OCR面前，大模型虽好，但恕我直言：开源小模型更香

用专用小模型PP-DocLayoutV2做“版面分析”，把文档切成“文本块/表格/公式/图表”，并给出阅读顺序；

用0.9B视觉语言模型PaddleOCR-VL-0.9B逐一识别每个区域；

轻量后处理把结果拼成Markdown/JSON。

https://arxiv.org/pdf/2510.14528

MonkeyOCR-1.5

MonkeyOCR v1.5 整体流程——先检测所有版面元素并生成顺序索引，再借助 VLM 并行识别各元素内容。

https://arxiv.org/pdf/2511.10390v2

MinerU2.5

MinerU2.5 的核心思想是“先全局后局部、先结构后语义”的解耦范式。 Stage-I Layout Analysis：低分辨率缩略图→快速全局版面检测+阅读顺序+旋转角； Stage-II Content Recognition：依布局裁剪原图关键区→并行送入原生分辨率 ViT→轻量 0.5 B LM 解码，输出 OCR/公式 LaTeX/表格 OTSL。