zhch158_admin 7e371a00d1 Add new language dictionaries and configuration files for OCR models 2 weeks ago
..
infer 7e371a00d1 Add new language dictionaries and configuration files for OCR models 2 weeks ago
pytorchocr 7e371a00d1 Add new language dictionaries and configuration files for OCR models 2 weeks ago
README.md 7e371a00d1 Add new language dictionaries and configuration files for OCR models 2 weeks ago
__init__.py 7e371a00d1 Add new language dictionaries and configuration files for OCR models 2 weeks ago
device_utils.py 7e371a00d1 Add new language dictionaries and configuration files for OCR models 2 weeks ago
ocr_utils.py 7e371a00d1 Add new language dictionaries and configuration files for OCR models 2 weeks ago
pytorch_paddle.py 43ca18e223 feat: 添加 PytorchPaddleOCR 模块,提供完整的 OCR 功能(检测 + 识别) 2 weeks ago

README.md

Vendor 依赖说明

本目录包含从 MinerU 提取的核心 OCR 模块。

📂 目录结构

vendor/
├── __init__.py
├── ocr_utils.py           # OCR 工具函数
├── pytorchocr/            # PytorchOCR 核心(需要手动复制)
│   ├── __init__.py
│   └── predict_system.py  # TextSystem 主类
└── README.md

🔧 安装步骤

由于 pytorchocr 模块较大,需要手动从 MinerU 复制:

# 1. 复制核心模块
cp -r /Users/zhch158/workspace/repository.git/MinerU/mineru/model/utils/tools/infer/ \
      vendor/infer/

# 2. 复制依赖的其他模块(如果需要)
cp -r /Users/zhch158/workspace/repository.git/MinerU/mineru/model/utils/pytorchocr/ \
      vendor/pytorchocr/

⚠️ 注意事项

  1. 依赖管理: vendor 的模块不会自动更新,需要手动同步 MinerU 的更新
  2. 路径问题: 如果遇到 import 错误,需要调整 mineru_ocr_adapter.py 中的导入路径
  3. 模型文件: 确保模型文件在 ~/.cache/modelscope/hub/models/OpenDataLab/

🔄 备选方案

如果 vendor 方式有问题,可以直接在运行时添加 MinerU 到 PYTHONPATH:

import sys
from pathlib import Path

mineru_root = Path("/Users/zhch158/workspace/repository.git/MinerU").resolve()
sys.path.insert(0, str(mineru_root))
pip install omegaconf