zhengchun/ocr_platform: 非结构化文档识别统一平台 @ de041fe41308d38630a590001ecf0479b05213fb

zhch158_admin abedc4e5b6 feat(更新PDF分类工具注释): 添加PDF分类工具的注释，说明优先使用MinerU原版及延迟导入策略		3 місяців тому
..
__init__.py	abedc4e5b6 feat(更新PDF分类工具注释): 添加PDF分类工具的注释，说明优先使用MinerU原版及延迟导入策略	3 місяців тому
bbox_utils.py	d9cd45f487 feat: Add BBoxExtractor for bounding box extraction and coordinate transformation	6 місяців тому
compare_pdf_renderers.py	4e6c855b17 feat: 添加PDF渲染引擎对比分析工具，支持分析图像属性和差异	6 місяців тому
coordinate_utils.py	71f6e7c39c feat(table-coordinates): add table coordinate utility module for OCR processing	5 місяців тому
device_utils.py	a7520b9498 feat: 添加多个工具模块，包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能	6 місяців тому
file_utils.py	499120d8c4 refactor: Implement lazy loading for PDFUtils and extract_pdf_pages	6 місяців тому
html_generator.py	d810bf44fc feat: Add output formatter v2 and PDF extraction utilities	6 місяців тому
html_utils.py	a7520b9498 feat: 添加多个工具模块，包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能	6 місяців тому
image_utils.py	e92c162db4 feat(新增水印检测和去除功能): 添加水印检测和去除的兼容别名，迁移至水印工具模块	3 місяців тому
json_formatters.py	1ce742a4ef refactor(json_formatters): 移除冗余的金额标准化逻辑，更新JSON输出以包含标准化变更记录	3 місяців тому
log_utils.py	d810bf44fc feat: Add output formatter v2 and PDF extraction utilities	6 місяців тому
markdown_generator.py	40bad356ee refactor(markdown_generator): 移除冗余的金额标准化逻辑，更新Markdown生成以包含标准化变更说明	3 місяців тому
normalize_financial_numbers.py	24f1406736 feat(normalize_financial_numbers): 优化金额规范化逻辑，增加对纯整数和正确小数格式的直接返回处理	3 місяців тому
number_utils.py	a7520b9498 feat: 添加多个工具模块，包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能	6 місяців тому
output_formatter_v2.py	11668f177e refactor(output_formatter_v2): 移除冗余的金额标准化逻辑，更新保存中间JSON的注释以反映标准化已在处理管道中完成	3 місяців тому
pdf_README.md	f32729046f feat: 统一坐标系输出逻辑，增加return_upright_coords参数支持，优化文本提取功能	5 місяців тому
pdf_classify.py	8032c96d96 feat(新增PDF文档类型分类工具): 添加PDF文档类型分类功能，支持判断可提取文本或需OCR	3 місяців тому
pdf_coordinate_transform.py	712d004e85 refactor(pdf_coordinate_transform): remove outdated bbox transformation function	5 місяців тому
pdf_extractor.py	499120d8c4 refactor: Implement lazy loading for PDFUtils and extract_pdf_pages	6 місяців тому
pdf_image_rendering.py	58d9568b0f feat: add PDF text extraction module and refactor PDF utilities	5 місяців тому
pdf_text_extraction.py	f32729046f feat: 统一坐标系输出逻辑，增加return_upright_coords参数支持，优化文本提取功能	5 місяців тому
pdf_utils.py	fadba9a24b fix(修复MinerU组件导入路径): 修改MinerU组件的导入路径以确保正确加载	3 місяців тому
visualization_utils.py	a7520b9498 feat: 添加多个工具模块，包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能	6 місяців тому
watermark_utils.py	7fa6ad09bb feat(新增水印处理工具模块): 添加图像级和PDF层级水印检测与去除功能，支持多种输入格式	3 місяців тому