paddleocr_vl_single_process.py 1.7 KB

1234567891011121314151617181920212223242526272829303132333435363738
  1. """PaddleOCR-VL批量处理程序(简化版)"""
  2. from ppstructurev3_single_process import main as unified_main
  3. import sys
  4. import os
  5. import time
  6. # 直接复用统一程序的主函数
  7. if __name__ == "__main__":
  8. print(f"🚀 启动统一PDF/图像处理程序...")
  9. print(f"🔧 CUDA_VISIBLE_DEVICES: {os.environ.get('CUDA_VISIBLE_DEVICES', 'Not set')}")
  10. if len(sys.argv) == 1:
  11. # 如果没有命令行参数,使用默认配置运行
  12. print("ℹ️ No command line arguments provided. Running with default configuration...")
  13. # 默认配置
  14. default_config = {
  15. "input_file": "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水.pdf",
  16. # "input_file": "/home/ubuntu/zhch/data/至远彩色印刷工业有限公司/PaddleOCR_VL_Results/2023年度报告母公司/2023年度报告母公司_page_027.png",
  17. "output_dir": "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水/PaddleOCR_VL_Results",
  18. "collect_results": f"/Users/zhch158/workspace/data/流水分析/B用户_扫描流水/PaddleOCR_VL_Results/processed_files_{time.strftime('%Y%m%d_%H%M%S')}.csv",
  19. "pipeline": "./my_config/PaddleOCR-VL-Client_debug.yaml",
  20. }
  21. # 构造参数
  22. sys.argv = [sys.argv[0]]
  23. for key, value in default_config.items():
  24. sys.argv.extend([f"--{key}", str(value)])
  25. # 调用PaddleOCR-VL单进程批量处理程序, 不用适配器
  26. sys.argv.append("--no-adapter")
  27. # 可以添加禁用标准化选项
  28. # sys.argv.append("--no-normalize")
  29. # 测试模式
  30. # sys.argv.append("--test_mode")
  31. sys.exit(unified_main())