zhch158_admin 18549b7bc5 feat: 添加 2023年度报告母公司.pdf 到 PDF 列表 1 Minggu lalu
..
README.md 8b7897cee9 feat: 添加PDF批量处理脚本及相关配置文件,支持多种处理器和虚拟环境自动切换 1 Minggu lalu
batch_merge_results.py 1f38e81a65 fix: 修正 DotsOCR 的合并脚本映射,确保正确使用合并脚本 1 Minggu lalu
batch_process_pdf.py 586f15b189 feat: 添加日志重定向支持,优化PDF批量处理器的日志管理 1 Minggu lalu
pdf_list.txt 18549b7bc5 feat: 添加 2023年度报告母公司.pdf 到 PDF 列表 1 Minggu lalu
processor_configs.yaml a9a8e8cf3b feat: 添加日志子目录和全局日志配置,优化处理器日志管理 1 Minggu lalu

README.md

batch_process_pdf.py 使用说明

处理器配置文件: zhch/processor_configs.yaml

功能概述

✅ 5. 日志输出

  • 显示使用的虚拟环境
  • 在 dry-run 模式下显示完整命令

使用示例

# 1. 使用 DotsOCR(自动切换到 py312 环境)
python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt

# 2. 使用 MinerU(自动切换到 mineru2 环境)
python batch_process_pdf.py -p mineru_vllm -f pdf_list.txt

# 3. 使用 PaddleOCR(自动切换到 paddle_env)
python batch_process_pdf.py -p paddleocr_vl_single_process -f pdf_list.txt

# 4. 模拟运行查看完整命令
python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt --dry-run -v

# 5. 覆盖虚拟环境
python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt \
    --venv "conda activate custom_env"

# 6. 手动指定脚本和虚拟环境
python batch_process_pdf.py \
    -s /path/to/script.py \
    --venv "conda activate myenv" \
    -f pdf_list.txt

实际执行的命令示例

DotsOCR:

conda activate py312 && python /path/to/dotsocr_vllm_multthreads.py \
    --input_file /path/to/file.pdf \
    --output_dir /path/to/output \
    --ip=10.192.72.11 --port=8101 --dpi=200

MinerU:

conda activate mineru2 && python /path/to/mineru2_vllm_multthreads.py \
    --input_file /path/to/file.pdf \
    --output_dir /path/to/output \
    --server_url=http://10.192.72.11:8121

PaddleOCR:

source /path/to/paddle_env/bin/activate && python /path/to/paddleocr_vl_single_process.py \
    --input_file /path/to/file.pdf \
    --output_dir /path/to/output \
    --pipeline=/path/to/config.yaml