zhch158_admin b11fe5592e fix(调整阈值以优化水印处理): 修改水印处理模块中的阈值设置,将单元格处理的阈值从170调整至155,以提升OCR处理的准确性和灵活性。 4 hari lalu
..
tests 40b88e07b3 feat(新增水印处理单元测试): 在test_watermark_processor.py中新增多个测试用例,验证WatermarkProcessor和merge_watermark_config的功能,确保水印处理逻辑的准确性和可靠性。 4 hari lalu
watermark b11fe5592e fix(调整阈值以优化水印处理): 修改水印处理模块中的阈值设置,将单元格处理的阈值从170调整至155,以提升OCR处理的准确性和灵活性。 4 hari lalu
__init__.py abedc4e5b6 feat(更新PDF分类工具注释): 添加PDF分类工具的注释,说明优先使用MinerU原版及延迟导入策略 1 bulan lalu
bbox_utils.py d9cd45f487 feat: Add BBoxExtractor for bounding box extraction and coordinate transformation 5 bulan lalu
compare_pdf_renderers.py 4e6c855b17 feat: 添加PDF渲染引擎对比分析工具,支持分析图像属性和差异 4 bulan lalu
coordinate_utils.py 71f6e7c39c feat(table-coordinates): add table coordinate utility module for OCR processing 4 bulan lalu
device_utils.py a7520b9498 feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能 5 bulan lalu
file_utils.py 499120d8c4 refactor: Implement lazy loading for PDFUtils and extract_pdf_pages 5 bulan lalu
html_generator.py d810bf44fc feat: Add output formatter v2 and PDF extraction utilities 5 bulan lalu
html_utils.py a7520b9498 feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能 5 bulan lalu
image_utils.py e92c162db4 feat(新增水印检测和去除功能): 添加水印检测和去除的兼容别名,迁移至水印工具模块 1 bulan lalu
json_formatters.py 1ce742a4ef refactor(json_formatters): 移除冗余的金额标准化逻辑,更新JSON输出以包含标准化变更记录 2 bulan lalu
log_utils.py d810bf44fc feat: Add output formatter v2 and PDF extraction utilities 5 bulan lalu
markdown_generator.py 40bad356ee refactor(markdown_generator): 移除冗余的金额标准化逻辑,更新Markdown生成以包含标准化变更说明 2 bulan lalu
module_debug_viz.py fdef502446 feat(添加虚线段绘制功能): 在module_debug_viz.py中新增虚线段绘制函数,支持在OCR span无文本时使用虚线框显示,提升可视化效果和调试灵活性。 5 hari lalu
normalize_financial_numbers.py 24f1406736 feat(normalize_financial_numbers): 优化金额规范化逻辑,增加对纯整数和正确小数格式的直接返回处理 2 bulan lalu
number_utils.py a7520b9498 feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能 5 bulan lalu
output_formatter_v2.py 11668f177e refactor(output_formatter_v2): 移除冗余的金额标准化逻辑,更新保存中间JSON的注释以反映标准化已在处理管道中完成 2 bulan lalu
pdf_README.md f32729046f feat: 统一坐标系输出逻辑,增加return_upright_coords参数支持,优化文本提取功能 4 bulan lalu
pdf_classify.py 8032c96d96 feat(新增PDF文档类型分类工具): 添加PDF文档类型分类功能,支持判断可提取文本或需OCR 1 bulan lalu
pdf_coordinate_transform.py 712d004e85 refactor(pdf_coordinate_transform): remove outdated bbox transformation function 4 bulan lalu
pdf_extractor.py 499120d8c4 refactor: Implement lazy loading for PDFUtils and extract_pdf_pages 5 bulan lalu
pdf_image_rendering.py 58d9568b0f feat: add PDF text extraction module and refactor PDF utilities 4 bulan lalu
pdf_text_extraction.py f32729046f feat: 统一坐标系输出逻辑,增加return_upright_coords参数支持,优化文本提取功能 4 bulan lalu
pdf_utils.py fadba9a24b fix(修复MinerU组件导入路径): 修改MinerU组件的导入路径以确保正确加载 1 bulan lalu
visualization_utils.py a7520b9498 feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能 5 bulan lalu
watermark_utils.py 75d01a1ed5 feat(重构水印处理模块): 将水印处理功能从ocr_utils.watermark_utils迁移至ocr_utils.watermark子模块,新增水印检测、去除、对比度增强等功能,优化模块结构以提升可维护性和扩展性,同时保留与历史导入路径的兼容性。 4 hari lalu