瀏覽代碼

去掉生成文本中的markdown标记,优化文本处理逻辑

zhch158_admin 1 月之前
父節點
當前提交
a8dab89a60
共有 1 個文件被更改,包括 3 次插入0 次删除
  1. 3 0
      ocr_by_vlm.py

+ 3 - 0
ocr_by_vlm.py

@@ -138,6 +138,9 @@ def ocr_with_vlm(image_path, output_dir="./output",
         if not generated_text:
             raise Exception("模型没有生成文本内容")
 
+		# 去掉generated_text开始‘’‘markdown, 结尾’‘’标记
+        generated_text = re.sub(r"^```markdown\s*", "", generated_text)
+        generated_text = re.sub(r"\s*```$", "", generated_text)
         # 标准化数字格式(如果启用)
         original_text = generated_text
         if normalize_numbers: