|
|
1 неделя назад | |
|---|---|---|
| .. | ||
| README.md | 1 неделя назад | |
| batch_merge_results.py | 1 неделя назад | |
| batch_process_pdf.py | 1 неделя назад | |
| pdf_list.txt | 1 неделя назад | |
| processor_configs.yaml | 1 неделя назад | |
处理器配置文件: zhch/processor_configs.yaml
# 1. 使用 DotsOCR(自动切换到 py312 环境)
python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt
# 2. 使用 MinerU(自动切换到 mineru2 环境)
python batch_process_pdf.py -p mineru_vllm -f pdf_list.txt
# 3. 使用 PaddleOCR(自动切换到 paddle_env)
python batch_process_pdf.py -p paddleocr_vl_single_process -f pdf_list.txt
# 4. 模拟运行查看完整命令
python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt --dry-run -v
# 5. 覆盖虚拟环境
python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt \
--venv "conda activate custom_env"
# 6. 手动指定脚本和虚拟环境
python batch_process_pdf.py \
-s /path/to/script.py \
--venv "conda activate myenv" \
-f pdf_list.txt
conda activate py312 && python /path/to/dotsocr_vllm_multthreads.py \
--input_file /path/to/file.pdf \
--output_dir /path/to/output \
--ip=10.192.72.11 --port=8101 --dpi=200
conda activate mineru2 && python /path/to/mineru2_vllm_multthreads.py \
--input_file /path/to/file.pdf \
--output_dir /path/to/output \
--server_url=http://10.192.72.11:8121
source /path/to/paddle_env/bin/activate && python /path/to/paddleocr_vl_single_process.py \
--input_file /path/to/file.pdf \
--output_dir /path/to/output \
--pipeline=/path/to/config.yaml