Sfoglia il codice sorgente

调整ocr_with_vlm函数的输出目录和默认示例图片路径,优化数字标准化处理逻辑

zhch158_admin 2 mesi fa
parent
commit
9a354b77ce
1 ha cambiato i file con 6 aggiunte e 6 eliminazioni
  1. 6 6
      ocr_by_vlm.py

+ 6 - 6
ocr_by_vlm.py

@@ -90,7 +90,7 @@ def normalize_markdown_table(markdown_content: str) -> str:
     # 返回更新后的HTML
     return str(soup)
 
-def ocr_with_vlm(image_path, output_dir="./", 
+def ocr_with_vlm(image_path, output_dir="./output", 
                         api_key=None, api_base=None, model_id=None, 
                         temperature=0.1, max_tokens=4096, timeout=180,
                         normalize_numbers=True):
@@ -220,9 +220,9 @@ def ocr_with_vlm(image_path, output_dir="./",
         original_text = generated_text
         if normalize_numbers:
             print("🔧 正在标准化数字格式...")
-            generated_text = normalize_financial_numbers(generated_text)
-            # 不用再调用表格标准化,避免重复处理
-            # generated_text = normalize_markdown_table(generated_text)
+            # generated_text = normalize_financial_numbers(generated_text)
+            # 只对Markdown表格进行数字标准化
+            generated_text = normalize_markdown_table(generated_text)
             
             # 统计标准化的变化
             changes_count = len([1 for o, n in zip(original_text, generated_text) if o != n])
@@ -355,7 +355,7 @@ if __name__ == "__main__":
     
     parser = argparse.ArgumentParser(description='VLM OCR识别工具')
     parser.add_argument('image_path', nargs='?', help='图片文件路径')
-    parser.add_argument('-o', '--output', default='./', help='输出目录')
+    parser.add_argument('-o', '--output', default='./output', help='输出目录')
     parser.add_argument('-t', '--temperature', type=float, default=0.1, help='生成温度')
     parser.add_argument('-m', '--max-tokens', type=int, default=4096, help='最大token数')
     parser.add_argument('--timeout', type=int, default=180, help='超时时间(秒)')
@@ -383,7 +383,7 @@ if __name__ == "__main__":
             print(f"❌ OCR识别失败: {e}")
     else:
         # 默认示例
-        image_path = "至远彩色印刷工业有限公司-2022年母公司_2.png"
+        image_path = "sample_data/至远彩色印刷工业有限公司-2022年母公司_2.png"
         try:
             result = ocr_with_vlm(image_path)
             print("\n🎉 OCR识别完成!")