hankal 6472578a28 sync: 本地 ocr_platform 工作区同步 (hooks/tests/adapters, 精简 lab) 1 day ago
..
hooks 6472578a28 sync: 本地 ocr_platform 工作区同步 (hooks/tests/adapters, 精简 lab) 1 day ago
tests 6472578a28 sync: 本地 ocr_platform 工作区同步 (hooks/tests/adapters, 精简 lab) 1 day ago
watermark b11fe5592e fix(调整阈值以优化水印处理): 修改水印处理模块中的阈值设置,将单元格处理的阈值从170调整至155,以提升OCR处理的准确性和灵活性。 1 month ago
__init__.py 6472578a28 sync: 本地 ocr_platform 工作区同步 (hooks/tests/adapters, 精简 lab) 1 day ago
bbox_utils.py d9cd45f487 feat: Add BBoxExtractor for bounding box extraction and coordinate transformation 6 months ago
compare_pdf_renderers.py 4e6c855b17 feat: 添加PDF渲染引擎对比分析工具,支持分析图像属性和差异 6 months ago
coordinate_utils.py 71f6e7c39c feat(table-coordinates): add table coordinate utility module for OCR processing 5 months ago
device_utils.py a7520b9498 feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能 6 months ago
file_utils.py 499120d8c4 refactor: Implement lazy loading for PDFUtils and extract_pdf_pages 6 months ago
html_generator.py d810bf44fc feat: Add output formatter v2 and PDF extraction utilities 6 months ago
html_utils.py a7520b9498 feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能 6 months ago
image_utils.py e92c162db4 feat(新增水印检测和去除功能): 添加水印检测和去除的兼容别名,迁移至水印工具模块 3 months ago
json_formatters.py 1ce742a4ef refactor(json_formatters): 移除冗余的金额标准化逻辑,更新JSON输出以包含标准化变更记录 3 months ago
log_utils.py d810bf44fc feat: Add output formatter v2 and PDF extraction utilities 6 months ago
markdown_generator.py 40bad356ee refactor(markdown_generator): 移除冗余的金额标准化逻辑,更新Markdown生成以包含标准化变更说明 3 months ago
module_debug_viz.py 6472578a28 sync: 本地 ocr_platform 工作区同步 (hooks/tests/adapters, 精简 lab) 1 day ago
normalize_financial_numbers.py 24f1406736 feat(normalize_financial_numbers): 优化金额规范化逻辑,增加对纯整数和正确小数格式的直接返回处理 3 months ago
number_utils.py a7520b9498 feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能 6 months ago
output_formatter_v2.py 6472578a28 sync: 本地 ocr_platform 工作区同步 (hooks/tests/adapters, 精简 lab) 1 day ago
pdf_README.md f32729046f feat: 统一坐标系输出逻辑,增加return_upright_coords参数支持,优化文本提取功能 5 months ago
pdf_classify.py 8032c96d96 feat(新增PDF文档类型分类工具): 添加PDF文档类型分类功能,支持判断可提取文本或需OCR 3 months ago
pdf_coordinate_transform.py 712d004e85 refactor(pdf_coordinate_transform): remove outdated bbox transformation function 5 months ago
pdf_extractor.py 499120d8c4 refactor: Implement lazy loading for PDFUtils and extract_pdf_pages 6 months ago
pdf_image_rendering.py 58d9568b0f feat: add PDF text extraction module and refactor PDF utilities 5 months ago
pdf_text_extraction.py f32729046f feat: 统一坐标系输出逻辑,增加return_upright_coords参数支持,优化文本提取功能 5 months ago
pdf_utils.py fadba9a24b fix(修复MinerU组件导入路径): 修改MinerU组件的导入路径以确保正确加载 3 months ago
visualization_utils.py 6472578a28 sync: 本地 ocr_platform 工作区同步 (hooks/tests/adapters, 精简 lab) 1 day ago
watermark_utils.py 75d01a1ed5 feat(重构水印处理模块): 将水印处理功能从ocr_utils.watermark_utils迁移至ocr_utils.watermark子模块,新增水印检测、去除、对比度增强等功能,优化模块结构以提升可维护性和扩展性,同时保留与历史导入路径的兼容性。 1 month ago