# batch_process_pdf.py 使用说明 **处理器配置文件: zhch/processor_configs.yaml** ## 功能概述 ### ✅ 5. 日志输出 - 显示使用的虚拟环境 - 在 dry-run 模式下显示完整命令 ## 使用示例 ```bash # 1. 使用 DotsOCR(自动切换到 py312 环境) python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt # 2. 使用 MinerU(自动切换到 mineru2 环境) python batch_process_pdf.py -p mineru_vllm -f pdf_list.txt # 3. 使用 PaddleOCR(自动切换到 paddle_env) python batch_process_pdf.py -p paddleocr_vl_single_process -f pdf_list.txt # 4. 模拟运行查看完整命令 python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt --dry-run -v # 5. 覆盖虚拟环境 python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt \ --venv "conda activate custom_env" # 6. 手动指定脚本和虚拟环境 python batch_process_pdf.py \ -s /path/to/script.py \ --venv "conda activate myenv" \ -f pdf_list.txt ``` ## 实际执行的命令示例 ### DotsOCR: ```bash conda activate py312 && python /path/to/dotsocr_vllm_multthreads.py \ --input_file /path/to/file.pdf \ --output_dir /path/to/output \ --ip=10.192.72.11 --port=8101 --dpi=200 ``` ### MinerU: ```bash conda activate mineru2 && python /path/to/mineru2_vllm_multthreads.py \ --input_file /path/to/file.pdf \ --output_dir /path/to/output \ --server_url=http://10.192.72.11:8121 ``` ### PaddleOCR: ```bash source /path/to/paddle_env/bin/activate && python /path/to/paddleocr_vl_single_process.py \ --input_file /path/to/file.pdf \ --output_dir /path/to/output \ --pipeline=/path/to/config.yaml ```