| .. |
|
__init__.py
|
abedc4e5b6
feat(更新PDF分类工具注释): 添加PDF分类工具的注释,说明优先使用MinerU原版及延迟导入策略
|
1 тиждень тому |
|
bbox_utils.py
|
d9cd45f487
feat: Add BBoxExtractor for bounding box extraction and coordinate transformation
|
3 місяців тому |
|
compare_pdf_renderers.py
|
4e6c855b17
feat: 添加PDF渲染引擎对比分析工具,支持分析图像属性和差异
|
3 місяців тому |
|
coordinate_utils.py
|
71f6e7c39c
feat(table-coordinates): add table coordinate utility module for OCR processing
|
2 місяців тому |
|
device_utils.py
|
a7520b9498
feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能
|
3 місяців тому |
|
file_utils.py
|
499120d8c4
refactor: Implement lazy loading for PDFUtils and extract_pdf_pages
|
3 місяців тому |
|
html_generator.py
|
d810bf44fc
feat: Add output formatter v2 and PDF extraction utilities
|
3 місяців тому |
|
html_utils.py
|
a7520b9498
feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能
|
3 місяців тому |
|
image_utils.py
|
e92c162db4
feat(新增水印检测和去除功能): 添加水印检测和去除的兼容别名,迁移至水印工具模块
|
1 тиждень тому |
|
json_formatters.py
|
1ce742a4ef
refactor(json_formatters): 移除冗余的金额标准化逻辑,更新JSON输出以包含标准化变更记录
|
2 тижнів тому |
|
log_utils.py
|
d810bf44fc
feat: Add output formatter v2 and PDF extraction utilities
|
3 місяців тому |
|
markdown_generator.py
|
40bad356ee
refactor(markdown_generator): 移除冗余的金额标准化逻辑,更新Markdown生成以包含标准化变更说明
|
2 тижнів тому |
|
normalize_financial_numbers.py
|
24f1406736
feat(normalize_financial_numbers): 优化金额规范化逻辑,增加对纯整数和正确小数格式的直接返回处理
|
2 тижнів тому |
|
number_utils.py
|
a7520b9498
feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能
|
3 місяців тому |
|
output_formatter_v2.py
|
11668f177e
refactor(output_formatter_v2): 移除冗余的金额标准化逻辑,更新保存中间JSON的注释以反映标准化已在处理管道中完成
|
2 тижнів тому |
|
pdf_README.md
|
f32729046f
feat: 统一坐标系输出逻辑,增加return_upright_coords参数支持,优化文本提取功能
|
2 місяців тому |
|
pdf_classify.py
|
8032c96d96
feat(新增PDF文档类型分类工具): 添加PDF文档类型分类功能,支持判断可提取文本或需OCR
|
1 тиждень тому |
|
pdf_coordinate_transform.py
|
712d004e85
refactor(pdf_coordinate_transform): remove outdated bbox transformation function
|
2 місяців тому |
|
pdf_extractor.py
|
499120d8c4
refactor: Implement lazy loading for PDFUtils and extract_pdf_pages
|
3 місяців тому |
|
pdf_image_rendering.py
|
58d9568b0f
feat: add PDF text extraction module and refactor PDF utilities
|
2 місяців тому |
|
pdf_text_extraction.py
|
f32729046f
feat: 统一坐标系输出逻辑,增加return_upright_coords参数支持,优化文本提取功能
|
2 місяців тому |
|
pdf_utils.py
|
fadba9a24b
fix(修复MinerU组件导入路径): 修改MinerU组件的导入路径以确保正确加载
|
1 тиждень тому |
|
visualization_utils.py
|
a7520b9498
feat: 添加多个工具模块,包括设备检测、图像处理、HTML/Markdown 处理和数字解析功能
|
3 місяців тому |
|
watermark_utils.py
|
7fa6ad09bb
feat(新增水印处理工具模块): 添加图像级和PDF层级水印检测与去除功能,支持多种输入格式
|
1 тиждень тому |