zhch158_admin 4af3067a19 feat(更新PaddleOCR配置): 修改main_v2.py中的PaddleOCR配置,调整输出目录、配置文件和日志文件路径,以支持新的处理方式,提升文档解析的灵活性与准确性。 1 mês atrás
..
config beb41fe75e feat(新增印章补充检测功能): 在bank_statement_paddle_vl_local.yaml中新增印章补充检测配置,优化密封区域识别能力,提升文档解析的准确性与完整性。同时更新表格识别配置,调整PaddleOCR-VL模型版本至1.6,增强整体OCR性能。 1 mês atrás
core 797bad05df feat(增强文档处理管道): 在EnhancedDocPipeline类中添加印章OCR识别器的初始化与清理逻辑,更新图片相关元素类别以支持图表,优化印章元素处理流程,提升印章识别的准确性与灵活性。 1 mês atrás
dit_support 20d936e629 feat: 新增 DiT 支持模块及其核心功能 6 meses atrás
models 4e44a6c829 feat(新增mineru_vl_utils运行时补丁): 新增对PaddleOCR-VL的OTSL转换补丁,修复表格首格缺失前导结构token的问题,确保输出HTML中完整保留文本,提升文档解析的准确性与可靠性。同时在MinerUVLRecognizer初始化中应用该补丁,确保兼容性。 1 mês atrás
tests a8ca9d4dc3 fix(优化二次OCR逻辑与参数): 更新二次OCR处理逻辑,增加对空单元格的判断,优化匹配框的使用,提升银行流水模式下的OCR准确性。同时调整相关测试用例以验证新逻辑的有效性。 1 mês atrás
utils 9733ac0b36 feat: 更新多个工具的 README 文档,添加详细文档链接 6 meses atrás
__init__.py 565ef479fa feat: Implement universal document parser with enhanced processing capabilities 6 meses atrás
main_v2.py 4af3067a19 feat(更新PaddleOCR配置): 修改main_v2.py中的PaddleOCR配置,调整输出目录、配置文件和日志文件路径,以支持新的处理方式,提升文档解析的灵活性与准确性。 1 mês atrás