Forráskód Böngészése

去掉生成文本中的markdown标记,优化文本处理逻辑

zhch158_admin 1 hónapja
szülő
commit
a8dab89a60
1 módosított fájl, 3 hozzáadás és 0 törlés
  1. 3 0
      ocr_by_vlm.py

+ 3 - 0
ocr_by_vlm.py

@@ -138,6 +138,9 @@ def ocr_with_vlm(image_path, output_dir="./output",
         if not generated_text:
             raise Exception("模型没有生成文本内容")
 
+		# 去掉generated_text开始‘’‘markdown, 结尾’‘’标记
+        generated_text = re.sub(r"^```markdown\s*", "", generated_text)
+        generated_text = re.sub(r"\s*```$", "", generated_text)
         # 标准化数字格式(如果启用)
         original_text = generated_text
         if normalize_numbers: