zhch158_admin 9413ec2600 feat(更新MinerU本地OCR配置): 修改main_v2.py中的输出目录、配置文件和日志文件路径,以支持新的MinerU处理方式,提升文档解析的灵活性与准确性。 1 ヶ月 前
..
config 0cb48eed12 feat(新增银行交易流水场景配置): 新增bank_statement_mineru_vl_local.yaml配置文件,支持银行交易流水和对账单的文档解析,包含输入输出参数、预处理、布局检测、OCR识别及表格分类等功能,提升文档解析的灵活性与准确性。 1 ヶ月 前
core 797bad05df feat(增强文档处理管道): 在EnhancedDocPipeline类中添加印章OCR识别器的初始化与清理逻辑,更新图片相关元素类别以支持图表,优化印章元素处理流程,提升印章识别的准确性与灵活性。 1 ヶ月 前
dit_support 20d936e629 feat: 新增 DiT 支持模块及其核心功能 6 ヶ月 前
models 4e44a6c829 feat(新增mineru_vl_utils运行时补丁): 新增对PaddleOCR-VL的OTSL转换补丁,修复表格首格缺失前导结构token的问题,确保输出HTML中完整保留文本,提升文档解析的准确性与可靠性。同时在MinerUVLRecognizer初始化中应用该补丁,确保兼容性。 1 ヶ月 前
tests a8ca9d4dc3 fix(优化二次OCR逻辑与参数): 更新二次OCR处理逻辑,增加对空单元格的判断,优化匹配框的使用,提升银行流水模式下的OCR准确性。同时调整相关测试用例以验证新逻辑的有效性。 1 ヶ月 前
utils 9733ac0b36 feat: 更新多个工具的 README 文档,添加详细文档链接 6 ヶ月 前
__init__.py 565ef479fa feat: Implement universal document parser with enhanced processing capabilities 6 ヶ月 前
main_v2.py 9413ec2600 feat(更新MinerU本地OCR配置): 修改main_v2.py中的输出目录、配置文件和日志文件路径,以支持新的MinerU处理方式,提升文档解析的灵活性与准确性。 1 ヶ月 前