소스 검색

feat: 添加 MinerU 和 DotsOCR vLLM 处理器配置,支持多线程批量处理 PDF 和图片

zhch158_admin 2 주 전
부모
커밋
8ab1d25f08
1개의 변경된 파일34개의 추가작업 그리고 0개의 파일을 삭제
  1. 34 0
      zhch/processor_configs.yaml

+ 34 - 0
zhch/processor_configs.yaml

@@ -73,6 +73,40 @@ processors:
     output_subdir: "ppstructurev3_client_results"
     description: "PP-StructureV3 HTTP API 客户端 - 远程服务"
 
+  # -------------------------------------------------------------------------
+  # MinerU vLLM 处理器
+  # 基于 MinerU 的多线程批量处理(支持 PDF 和图片)
+  # -------------------------------------------------------------------------
+  mineru_vllm:
+    script: "/Users/zhch158/workspace/repository.git/MinerU/zhch/mineru2_vllm_multthreads.py"
+    input_arg: "--input_file"
+    output_arg: "--output_dir"
+    extra_args:
+      - "--server_url=http://10.192.72.11:8121"
+      - "--timeout=300"
+      - "--batch_size=1"
+    output_subdir: "mineru_vllm_results"
+    description: "MinerU vLLM 处理器 - 支持PDF和图片"
+
+  # -------------------------------------------------------------------------
+  # DotsOCR vLLM 处理器
+  # 基于 DotsOCR 的批量处理(支持 PDF 和图片)
+  # -------------------------------------------------------------------------
+  dotsocr_vllm:
+    script: "/Users/zhch158/workspace/repository.git/dots.ocr/zhch/dotsocr_vllm_multthreads.py"
+    input_arg: "--input_file"
+    output_arg: "--output_dir"
+    extra_args:
+      - "--ip=10.192.72.11"
+      - "--port=8101"
+      - "--model_name=DotsOCR"
+      - "--prompt_mode=prompt_layout_all_en"
+      - "--batch_size=1"
+      - "--max_workers=1"
+      - "--dpi=200"
+    output_subdir: "dotsocr_vllm_results"
+    description: "DotsOCR vLLM 处理器 - 支持PDF和图片"
+
 # ============================================================================
 # 全局配置
 # ============================================================================