# OCR Platform 文档 本目录包含 OCR Platform 项目的详细文档,按工具分类组织。 ## 目录结构 ``` docs/ ├── paddlex/ # PaddleX 相关文档 │ ├── README.md # PaddleX 环境配置和使用说明 │ ├── PaddleOCR-VL-说明.md # PaddleOCR-VL 使用说明 │ ├── PP-StructureV3-说明.md # PP-StructureV3 使用说明 │ └── ... ├── mineru/ # MinerU 相关文档 │ ├── README.md # MinerU 环境配置和使用说明 │ ├── mineru_处理流程.md # MinerU 处理流程 │ └── ... ├── dotsocr/ # DotsOCR 相关文档 │ ├── README.md # DotsOCR 环境配置和使用说明 │ └── get_image_by_fitz.md # 图像提取说明 ├── ocr_tools/ # OCR 工具详细技术文档 │ ├── ocr_merger/ # OCR 结果合并算法文档 │ │ ├── README.md # OCR 合并工具说明 │ │ ├── 坐标系变换.md # 坐标系变换详解 │ │ ├── 表格行匹配算法详解.md │ │ └── ... │ ├── universal_doc_parser/ # 统一文档解析器文档 │ │ ├── 模型统一框架.md │ │ ├── Layout后处理-文本转表格.md │ │ └── ... │ └── pytorch_models/ # PyTorch 模型文档 │ └── onnx转换、推理算法.md └── legacy_table_line_generator/ # 遗留表格线生成器文档 └── 无线表格智能标注.md ``` ## 快速导航 ### PaddleX 文档 - [环境配置和使用说明](paddlex/README.md) - [PaddleOCR-VL 使用说明](paddlex/PaddleOCR-VL-说明.md) - [PP-StructureV3 使用说明](paddlex/PP-StructureV3-说明.md) - [智能表格识别模式选择](paddlex/智能表格识别模式选择.md) ### MinerU 文档 - [环境配置和使用说明](mineru/README.md) - [处理流程说明](mineru/mineru_处理流程.md) - [表格识别模块说明](mineru/表格识别模块说明.md) - [坐标归一化说明](mineru/坐标归一化.md) ### DotsOCR 文档 - [环境配置和使用说明](dotsocr/README.md) - [图像提取说明](dotsocr/get_image_by_fitz.md) ### OCR 工具技术文档 - [OCR 结果合并工具](ocr_tools/ocr_merger/README.md) - [坐标系变换](ocr_tools/ocr_merger/坐标系变换.md) - [表格行匹配算法详解](ocr_tools/ocr_merger/表格行匹配算法详解.md) - [Tablecells 匹配-动态规划](ocr_tools/ocr_merger/Tablecells匹配-动态规划.md) - [统一文档解析器](ocr_tools/universal_doc_parser/模型统一框架.md) - [Layout 后处理-文本转表格](ocr_tools/universal_doc_parser/Layout后处理-文本转表格.md) - [OCR 识别差异分析与改进方案](ocr_tools/universal_doc_parser/OCR识别差异分析与改进方案.md) - [PyTorch 模型](ocr_tools/pytorch_models/onnx转换、推理算法.md) ### 遗留工具文档 - [无线表格智能标注](legacy_table_line_generator/无线表格智能标注.md) ## 注意事项 - 各源代码目录(如 `ocr_tools/paddle_vl_tool/`)只保留简要的 `README.md`,详细文档请查看本目录 - 结果文件(如 `OmniDocBench_*_Results/`)不包含在文档中 - 如需查找特定功能的文档,请使用搜索功能或查看对应工具的目录