| 1234567891011121314151617181920212223242526272829303132333435363738 |
- """PaddleOCR-VL批量处理程序(简化版)"""
- from ppstructurev3_single_process import main as unified_main
- import sys
- import os
- import time
- # 直接复用统一程序的主函数
- if __name__ == "__main__":
- print(f"🚀 启动统一PDF/图像处理程序...")
- print(f"🔧 CUDA_VISIBLE_DEVICES: {os.environ.get('CUDA_VISIBLE_DEVICES', 'Not set')}")
-
- if len(sys.argv) == 1:
- # 如果没有命令行参数,使用默认配置运行
- print("ℹ️ No command line arguments provided. Running with default configuration...")
-
- # 默认配置
- default_config = {
- "input_file": "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水.pdf",
- # "input_file": "/home/ubuntu/zhch/data/至远彩色印刷工业有限公司/PaddleOCR_VL_Results/2023年度报告母公司/2023年度报告母公司_page_027.png",
- "output_dir": "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水/PaddleOCR_VL_Results",
- "collect_results": f"/Users/zhch158/workspace/data/流水分析/B用户_扫描流水/PaddleOCR_VL_Results/processed_files_{time.strftime('%Y%m%d_%H%M%S')}.csv",
- "pipeline": "./my_config/PaddleOCR-VL-Client_debug.yaml",
- }
-
- # 构造参数
- sys.argv = [sys.argv[0]]
- for key, value in default_config.items():
- sys.argv.extend([f"--{key}", str(value)])
- # 调用PaddleOCR-VL单进程批量处理程序, 不用适配器
- sys.argv.append("--no-adapter")
-
- # 可以添加禁用标准化选项
- # sys.argv.append("--no-normalize")
-
- # 测试模式
- # sys.argv.append("--test_mode")
- sys.exit(unified_main())
|