Преглед изворни кода

feat: 更新 README 和配置文件,添加新的处理器示例和修正脚本路径

zhch158_admin пре 1 недеља
родитељ
комит
c947227eb1
2 измењених фајлова са 9 додато и 3 уклоњено
  1. 8 2
      ocr_tools/ocr_batch/README.md
  2. 1 1
      ocr_tools/ocr_batch/processor_configs.yaml

+ 8 - 2
ocr_tools/ocr_batch/README.md

@@ -33,6 +33,12 @@ python batch_process_pdf.py \
     -s /path/to/script.py \
     --venv "conda activate myenv" \
     -f pdf_list.txt
+
+# 7. 指定文件
+python batch_process_pdf.py -p mineru_vllm -l 施博深.pdf
+python batch_process_pdf.py -p paddleocr_vl_single_process -l 施博深.pdf
+python batch_process_pdf.py -p dotsocr_vllm -l 施博深.pdf
+python batch_process_pdf.py -p ppstructurev3_single_client -l 施博深.pdf
 ```
 
 ## 实际执行的命令示例
@@ -40,7 +46,7 @@ python batch_process_pdf.py \
 ### DotsOCR:
 ```bash
 conda activate py312 && python /path/to/dotsocr_vllm_multthreads.py \
-    --input_file /path/to/file.pdf \
+    --input /path/to/file.pdf \
     --output_dir /path/to/output \
     --ip=10.192.72.11 --port=8101 --dpi=200
 ```
@@ -48,7 +54,7 @@ conda activate py312 && python /path/to/dotsocr_vllm_multthreads.py \
 ### MinerU:
 ```bash
 conda activate mineru2 && python /path/to/mineru2_vllm_multthreads.py \
-    --input_file /path/to/file.pdf \
+    --input /path/to/file.pdf \
     --output_dir /path/to/output \
     --server_url=http://10.192.72.11:8121
 ```

+ 1 - 1
ocr_tools/ocr_batch/processor_configs.yaml

@@ -119,7 +119,7 @@ processors:
   # 基于 DotsOCR 的批量处理(支持 PDF 和图片)
   # -------------------------------------------------------------------------
   dotsocr_vllm:
-    script: "/Users/zhch158/workspace/repository.git/ocr_platform/ocr_tools/dotsocr_vl_tool/main.py"
+    script: "/Users/zhch158/workspace/repository.git/ocr_platform/ocr_tools/dots.ocr_vl_tool/main.py"
     input_arg: "--input"
     output_arg: "--output_dir"
     extra_args: