ソースを参照

feat: 更新默认配置,调整输入文件、输出目录和处理页面范围

zhch158_admin 1 週間 前
コミット
75b95bb8eb
1 ファイル変更7 行追加6 行削除
  1. 7 6
      ocr_tools/universal_doc_parser/main_v2.py

+ 7 - 6
ocr_tools/universal_doc_parser/main_v2.py

@@ -399,8 +399,8 @@ if __name__ == "__main__":
         # 默认配置
         default_config = {
             # 测试输入
-            "input": "/Users/zhch158/workspace/data/流水分析/康强_北京农村商业银行.pdf",
-            "output_dir": "./output/康强_北京农村商业银行_bank_statement_v2",
+            # "input": "/Users/zhch158/workspace/data/流水分析/康强_北京农村商业银行.pdf",
+            # "output_dir": "./output/康强_北京农村商业银行_bank_statement_v2",
 
             # "input": "/Users/zhch158/workspace/data/流水分析/2023年度报告母公司/mineru_vllm_results/2023年度报告母公司/2023年度报告母公司_page_003.png",
             # "output_dir": "./output/2023年度报告母公司_bank_statement_v2",
@@ -408,7 +408,8 @@ if __name__ == "__main__":
             # "input": "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水.pdf",
             # "output_dir": "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水/bank_statement_yusys_v2",
 
-            # "input": "/Users/zhch158/workspace/data/流水分析/2023年度报告母公司.pdf",
+            "input": "/Users/zhch158/workspace/data/流水分析/2023年度报告母公司.pdf",
+            "output_dir": "./output/2023年度报告母公司/bank_statement_wired_unet",
             # "output_dir": "/Users/zhch158/workspace/data/流水分析/2023年度报告母公司/bank_statement_yusys_v2",
 
             # "input": "/Users/zhch158/workspace/data/流水分析/施博深.pdf",
@@ -421,15 +422,15 @@ if __name__ == "__main__":
             # "output_dir": "/Users/zhch158/workspace/data/流水分析/施博深/bank_statement_wired_unet",
 
             # 配置文件
-            # "config": "./config/bank_statement_wired_unet.yaml",
-            "config": "./config/bank_statement_yusys_v2.yaml",
+            "config": "./config/bank_statement_wired_unet.yaml",
+            # "config": "./config/bank_statement_yusys_v2.yaml",
             # "config": "./config/bank_statement_paddle_vl.yaml",
             
             # 场景
             "scene": "bank_statement",
             
             # 页面范围(可选)
-            "pages": "2",  # 只处理前1页
+            "pages": "6",  # 只处理前1页
             # "pages": "1-3,5,7-10",  # 处理指定页面
 
             "streaming": True,