Browse Source

feat(ocr): filter out low confidence ocr results

- Add confidence score threshold to filter out low confidence OCR results
- Improve OCR accuracy by ignoring less certain detections
myhloli 11 tháng trước cách đây
mục cha
commit
eb45a0e87e
1 tập tin đã thay đổi với 3 bổ sung0 xóa
  1. 3 0
      magic_pdf/model/sub_modules/ocr/paddleocr/ocr_utils.py

+ 3 - 0
magic_pdf/model/sub_modules/ocr/paddleocr/ocr_utils.py

@@ -214,6 +214,9 @@ def get_ocr_result_list(ocr_res, useful_list):
         if len(box_ocr_res) == 2:
             p1, p2, p3, p4 = box_ocr_res[0]
             text, score = box_ocr_res[1]
+            # logger.info(f"text: {text}, score: {score}")
+            if score < 0.6:  # 过滤低置信度的结果
+                continue
         else:
             p1, p2, p3, p4 = box_ocr_res
             text, score = "", 1