Explorar o código

fix: update README and utils for table merge feature and environment variable configuration

myhloli hai 3 semanas
pai
achega
df12e4fc79
Modificáronse 2 ficheiros con 14 adicións e 3 borrados
  1. 12 1
      README_zh-CN.md
  2. 2 2
      mineru/backend/utils.py

+ 12 - 1
README_zh-CN.md

@@ -44,7 +44,18 @@
 </div>
 
 # 更新记录
-
+- 2025/10/24 2.6.0 发布
+  - `pipline`后端优化
+    - 增加对中文公式的实验性支持,可通过配置环境变量`export MINERU_FORMULA_CH_SUPPORT=1`开启。该功能可能会导致MFR速率略微下降、部分长公式识别失败等问题,建议仅在需要解析中文公式的场景下开启。如需关闭该功能,可将环境变量设置为`0`。
+    - `OCR`速度大幅提升200%~300%,感谢 @cjsdurj 提供的优化方案
+    - `OCR`模型更新西里尔文(cyrillic)、阿拉伯文(arabic)、天城文(devanagari)、泰卢固语(te)、泰米尔语(ta)语系至`ppocr-v5`版本,精度相比上代模型提升40%以上
+  - `vlm`后端优化
+    - `table_caption`、`table_footnote`匹配逻辑优化,提升页内多张连续表场景下的表格标题和脚注的匹配准确率和阅读顺序合理性
+    - 优化使用`vllm`后端时高并发时的cpu资源占用,降低服务端压力
+  - 通用优化
+    - 跨页表格合并效果优化,新增跨页续表合并支持,提升在多列合并场景下的表格合并效果
+    - 为表格合并功能增加环境变量配置选项`MINERU_TABLE_MERGE_ENABLE`,表格合并功能默认开启,可通过设置该变量为`0`来关闭表格合并功能
+    
 - 2025/09/26 2.5.4 发布
   - 🎉🎉 MinerU2.5[技术报告](https://arxiv.org/abs/2509.22186)现已发布,欢迎阅读全面了解其模型架构、训练策略、数据工程和评测结果。
   - 修复部分`pdf`文件被识别成`ai`文件导致无法解析的问题

+ 2 - 2
mineru/backend/utils.py

@@ -14,11 +14,11 @@ def cross_page_table_merge(pdf_info: list[dict]):
     Returns:
         None
     """
-    is_merge_table = os.getenv('MINERU_MERGE_TABLE', 'true')
+    is_merge_table = os.getenv('MINERU_TABLE_MERGE_ENABLE', 'true')
     if is_merge_table.lower() in ['true', '1', 'yes']:
         merge_table(pdf_info)
     elif is_merge_table.lower() in ['false', '0', 'no']:
         pass
     else:
-        logger.warning(f'unknown MINERU_MERGE_TABLE config: {is_merge_table}, pass')
+        logger.warning(f'unknown MINERU_TABLE_MERGE_ENABLE config: {is_merge_table}, pass')
         pass