yegang5211
pushed to dev at zhengchun/ocr_platform
7d2d878b38 feat(恢复印章识别功能+修复表格文字丢失): 从 main 同步被 sync commit 6472578 误删的功能代码
印章识别功能(8文件):
- 新增 seal_ocr_adapter.py: MinerU PytorchPaddleOCR(lang=seal) 印章专用 OCR 适配器
- layout_model_router.py: 手动合并 main 的 seal_supplement 补充检测 + dev 的 filter_layout_models_for_router hook
- element_processors.py: process_seal_element 优先 SealOCRRecognizer,回退 VLM
- pipeline_manager_v2.py: 集成 seal_ocr_recognizer + IMAGE_BODY_CATEGORIES 加 chart
- model_factory.py: 新增 create_seal_ocr_recognizer 工厂方法
- adapters/__init__.py: 注册 SealOCRRecognizer
- bank_statement_yusys_v4.yaml: 新增 seal_supplement + seal_recognition 配置段(保留 dev 的 cuda 生产配置)
- docs/mineru/印章识别-seal处理流程.md: 印章识别技术文档
误删修复(3文件):
- base.py: 恢复 seal 去重保护(IoU 高时跳过 seal 类,避免印章被误删)
- _mineru_vl_patches.py: 恢复 OTSL 补丁(修复 PaddleOCR-VL 表格首格 <fcel> 缺失导致所有单元格文字丢失)
- mineru_adapter.py: 手动合并 main 的 patches 调用 + dev 的 device strategy 生产适配
9 hours ago