zhch158_admin c947227eb1 feat: 更新 README 和配置文件,添加新的处理器示例和修正脚本路径 1 週間 前
..
README.md c947227eb1 feat: 更新 README 和配置文件,添加新的处理器示例和修正脚本路径 1 週間 前
batch_merge_results.py f961184f0b feat: Add batch processing tools for PDF and OCR results 1 週間 前
batch_process_pdf.py f961184f0b feat: Add batch processing tools for PDF and OCR results 1 週間 前
pdf_list.txt f961184f0b feat: Add batch processing tools for PDF and OCR results 1 週間 前
processor_configs.yaml c947227eb1 feat: 更新 README 和配置文件,添加新的处理器示例和修正脚本路径 1 週間 前

README.md

batch_process_pdf.py 使用说明

位置: ocr_platform/ocr_tools/ocr_batch/

处理器配置文件: processor_configs.yaml

功能概述

✅ 5. 日志输出

  • 显示使用的虚拟环境
  • 在 dry-run 模式下显示完整命令

使用示例

# 1. 使用 DotsOCR(自动切换到 py312 环境)
python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt

# 2. 使用 MinerU(自动切换到 mineru2 环境)
python batch_process_pdf.py -p mineru_vllm -f pdf_list.txt

# 3. 使用 PaddleOCR(自动切换到 paddle_env)
python batch_process_pdf.py -p paddleocr_vl_single_process -f pdf_list.txt

# 4. 模拟运行查看完整命令
python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt --dry-run -v

# 5. 覆盖虚拟环境
python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt \
    --venv "conda activate custom_env"

# 6. 手动指定脚本和虚拟环境
python batch_process_pdf.py \
    -s /path/to/script.py \
    --venv "conda activate myenv" \
    -f pdf_list.txt

# 7. 指定文件
python batch_process_pdf.py -p mineru_vllm -l 施博深.pdf
python batch_process_pdf.py -p paddleocr_vl_single_process -l 施博深.pdf
python batch_process_pdf.py -p dotsocr_vllm -l 施博深.pdf
python batch_process_pdf.py -p ppstructurev3_single_client -l 施博深.pdf

实际执行的命令示例

DotsOCR:

conda activate py312 && python /path/to/dotsocr_vllm_multthreads.py \
    --input /path/to/file.pdf \
    --output_dir /path/to/output \
    --ip=10.192.72.11 --port=8101 --dpi=200

MinerU:

conda activate mineru2 && python /path/to/mineru2_vllm_multthreads.py \
    --input /path/to/file.pdf \
    --output_dir /path/to/output \
    --server_url=http://10.192.72.11:8121

PaddleOCR-VL:

source /path/to/paddle_env/bin/activate && python /path/to/ocr_platform/ocr_tools/paddle_vl_tool/main.py \
    --input /path/to/file.pdf \
    --output_dir /path/to/output \
    --pipeline=/path/to/config.yaml

PP-StructureV3:

source /path/to/paddle_env/bin/activate && python /path/to/ocr_platform/ocr_tools/ppstructure_tool/main.py \
    --input /path/to/file.pdf \
    --output_dir /path/to/output \
    --pipeline=/path/to/config.yaml

PP-StructureV3 API Client:

source /path/to/paddle_env/bin/activate && python /path/to/ocr_platform/ocr_tools/ppstructure_tool/api_client.py \
    --input /path/to/file.pdf \
    --output_dir /path/to/output \
    --api_url=http://10.192.72.11:8111/layout-parsing