Переглянути джерело

Merge pull request #1469 from opendatalab/dev

fix(language): enhance language detection and text processing
Xiaomeng Zhao 10 місяців тому
батько
коміт
e778264f01
1 змінених файлів з 3 додано та 0 видалено
  1. 3 0
      magic_pdf/libs/language.py

+ 3 - 0
magic_pdf/libs/language.py

@@ -16,11 +16,14 @@ def detect_lang(text: str) -> str:
 
 
     if len(text) == 0:
     if len(text) == 0:
         return ""
         return ""
+
+    text = text.replace("\n", "")
     try:
     try:
         lang_upper = detect_language(text)
         lang_upper = detect_language(text)
     except:
     except:
         html_no_ctrl_chars = ''.join([l for l in text if unicodedata.category(l)[0] not in ['C', ]])
         html_no_ctrl_chars = ''.join([l for l in text if unicodedata.category(l)[0] not in ['C', ]])
         lang_upper = detect_language(html_no_ctrl_chars)
         lang_upper = detect_language(html_no_ctrl_chars)
+
     try:
     try:
         lang = lang_upper.lower()
         lang = lang_upper.lower()
     except:
     except: