# Vendor 依赖说明 本目录包含从 MinerU 提取的核心 OCR 模块。 ## 📂 目录结构 ``` vendor/ ├── __init__.py ├── ocr_utils.py # OCR 工具函数 ├── pytorchocr/ # PytorchOCR 核心(需要手动复制) │ ├── __init__.py │ └── predict_system.py # TextSystem 主类 └── README.md ``` ## 🔧 安装步骤 由于 `pytorchocr` 模块较大,需要手动从 MinerU 复制: ```bash # 1. 复制核心模块 cp -r /Users/zhch158/workspace/repository.git/MinerU/mineru/model/utils/tools/infer/ \ vendor/infer/ # 2. 复制依赖的其他模块(如果需要) cp -r /Users/zhch158/workspace/repository.git/MinerU/mineru/model/utils/pytorchocr/ \ vendor/pytorchocr/ ``` ## ⚠️ 注意事项 1. **依赖管理**: vendor 的模块不会自动更新,需要手动同步 MinerU 的更新 2. **路径问题**: 如果遇到 import 错误,需要调整 `mineru_ocr_adapter.py` 中的导入路径 3. **模型文件**: 确保模型文件在 `~/.cache/modelscope/hub/models/OpenDataLab/` 下 ## 🔄 备选方案 如果 vendor 方式有问题,可以直接在运行时添加 MinerU 到 PYTHONPATH: ```python import sys from pathlib import Path mineru_root = Path("/Users/zhch158/workspace/repository.git/MinerU").resolve() sys.path.insert(0, str(mineru_root)) ``` ```bash pip install omegaconf ```