История коммитов

Автор SHA1 Сообщение Дата
  zhch158_admin 49a0fefc0e feat(新增SealOCR识别器支持): 在适配器模块中引入SealOCRRecognizer,并更新BaseLayoutDetector类以处理印章类别的重叠情况,优化印章识别流程。 1 месяц назад
  zhch158_admin 797bad05df feat(增强文档处理管道): 在EnhancedDocPipeline类中添加印章OCR识别器的初始化与清理逻辑,更新图片相关元素类别以支持图表,优化印章元素处理流程,提升印章识别的准确性与灵活性。 1 месяц назад
  zhch158_admin d1e3ac399d feat(新增印章OCR识别器创建方法): 在ModelFactory类中添加create_seal_ocr_recognizer方法,用于创建并初始化SealOCRRecognizer,提升印章OCR识别能力。 1 месяц назад
  zhch158_admin 6e1b1bead4 feat(新增印章补充检测器): 在SmartLayoutRouter类中添加seal补充检测功能,初始化PP-DocLayoutV3模型以提升印章区域的识别能力,并实现结果合并与调试信息保存,优化印章检测流程。 1 месяц назад
  zhch158_admin 31ae5b84ca feat(新增印章OCR识别器): 在ElementProcessors类中添加seal_ocr_recognizer参数,优化印章处理逻辑,优先使用SealOCRRecognizer进行识别,回退至VLM,提升印章识别的准确性与灵活性。 1 месяц назад
  zhch158_admin e72a51154f feat(新增印章补充检测功能): 在多个YAML配置文件中添加印章补充检测配置,启用PP-DocLayoutV3模型以提升对密封区域的识别能力,同时更新银行流水描述以反映新功能。 1 месяц назад
  zhch158_admin 48ff3fcd63 feat(新增印章识别处理流程文档): 添加MinerU印章识别处理流程的详细文档,涵盖布局检测、印章文字OCR及相关模型配置,提升用户对印章识别功能的理解与使用指导。 1 месяц назад
  zhch158_admin 4cd6801a2f fix(优化单元格OCR处理逻辑): 更新有线表格识别文档,详细说明二次OCR的核心设计与实现,增加对水印过滤、纵向完整性检测及列空判断的描述,提升OCR处理的准确性与灵活性。 1 месяц назад
  zhch158_admin e7d756752c fix(更新OCR示例路径): 修改main_v2.py中的OCR示例输入输出路径,更新为新的文件名和目录,以便于后续测试和使用。 1 месяц назад
  zhch158_admin ac90e7c976 fix(优化文本填充逻辑): 更新TextFiller类中的文本填充逻辑,增加对OCR结果不完整的判断,优化返回的原因列表,提升OCR处理的准确性与灵活性。 1 месяц назад
  zhch158_admin d817ad414b fix(优化二次OCR参数配置): 更新多个YAML配置文件中的二次OCR参数,调整水印去除、对比度增强及放大处理设置,以提升银行流水场景下的OCR处理准确性与灵活性。 1 месяц назад
  zhch158_admin fd4a208147 fix(更新OCR参数示例): 修改main_v2.py中的OCR参数示例,调整页面处理范围为1页,并注释掉特定输入输出路径配置,以便于后续使用和测试。 1 месяц назад
  zhch158_admin a8ca9d4dc3 fix(优化二次OCR逻辑与参数): 更新二次OCR处理逻辑,增加对空单元格的判断,优化匹配框的使用,提升银行流水模式下的OCR准确性。同时调整相关测试用例以验证新逻辑的有效性。 1 месяц назад
  zhch158_admin db56c3775a fix(优化二次OCR参数配置): 更新bank_statement_yusys_local.yaml中的二次OCR参数,调整upscale_min_side的值以优化常规与低分场景下的OCR处理,提升整体识别准确性与灵活性。 1 месяц назад
  zhch158_admin 62bfdb256f feat(新增汇总推荐配置与批量扫描功能): 新增aggregate_recommendation.json文件以支持多案例的汇总推荐,更新cell_sweep.py以实现批量扫描和命中率统计功能,提升OCR处理的灵活性与准确性。同时新增sweep_cases.json文件以定义多个测试案例。 1 месяц назад
  zhch158_admin ba79f0c7d9 feat(新增多个单元格原始图像文件): 新增多个空白和带线条的单元格原始图像文件,以支持后续的OCR处理和实验。 1 месяц назад
  zhch158_admin dbc00409e6 fix(优化二次OCR配置): 将二次OCR逻辑参数硬编码,移除YAML配置覆盖,调整suspicious_short_min_chars默认值为4,优化光照增强配置,提升OCR处理的准确性与一致性。 1 месяц назад
  zhch158_admin 6d733e96c5 fix(优化单元格二次OCR配置): 更新bank_statement_yusys_local.yaml中的二次OCR配置,调整参数以增强水印去除和对比度处理,提升OCR处理的准确性与灵活性。 1 месяц назад
  zhch158_admin 9780104eed feat(重构实验模块与单元格预处理功能): 删除cell_sweep.py,新增cell_preprocess_lab.py和cell_sweep.py,整合单元格裁剪图预处理与参数扫描功能,优化水印去除、对比度增强及放大处理,提升OCR处理的准确性与灵活性。同时新增实验模块集合与README文档,明确各子模块功能与用法。 1 месяц назад
  zhch158_admin 092154445c fix(优化水印去除配置): 更新bank_statement_glm_vl_local.yaml中的水印去除设置,启用检测前处理,调整对比度增强选项,提升OCR处理的准确性与灵活性。 1 месяц назад
  zhch158_admin 01c5c02e94 feat(新增项目规则文件): 创建项目规则文件,明确所有回答需使用中文及开发运行时需激活`mineru`环境的要求,提升项目规范性与可维护性。 1 месяц назад
  zhch158_admin 937aab7790 fix(更新OCR结果对比路径与内容提取逻辑): 修改compare_ocr_results.py中的文件路径以适应新的数据源,同时在content_extractor.py中新增HTML注释移除功能,优化段落提取逻辑,提升OCR处理的准确性与灵活性。 1 месяц назад
  zhch158_admin 55ca99c249 feat(新增项目通用约定文档): 创建项目通用约定文档,明确使用简体中文进行交流及命令执行时需激活`mineru`环境的要求,提升项目规范性与可维护性。 1 месяц назад
  zhch158_admin b210ab056b fix(优化水印处理与布局检测配置): 更新多个bank_statement配置文件,调整水印去除设置,启用检测前处理,优化布局检测模块,新增OCR识别和表格分类功能,提升整体OCR处理的准确性与灵活性。 1 месяц назад
  zhch158_admin 70f36c0904 fix(调整水印处理与单元格预处理配置): 更新bank_statement_yusys_local.yaml中的水印处理方法和对比度增强设置,调整阈值和启用状态,以优化OCR处理效果和灵活性。 1 месяц назад
  zhch158_admin b11fe5592e fix(调整阈值以优化水印处理): 修改水印处理模块中的阈值设置,将单元格处理的阈值从170调整至155,以提升OCR处理的准确性和灵活性。 1 месяц назад
  zhch158_admin a2311846f1 feat(增强二次OCR处理与单元格预处理功能): 在test_second_pass_ocr_aggregate.py中新增测试类和用例,验证短文本最小字符配置、单元格预处理的对比度调整及水印处理逻辑,提升OCR处理的准确性与灵活性。 1 месяц назад
  zhch158_admin df98998bd5 feat(优化文本填充与OCR识别逻辑): 更新TextFiller类,新增短文本最小字符配置,重构识别逻辑以支持更灵活的文本解析和分数归一化,优化单元格对比度调整与增强功能,提升OCR处理的准确性与灵活性。 1 месяц назад
  zhch158_admin eb694a01bb feat(新增水印评估与合成模块): 添加evaluate.py用于对比baseline与LaMa GAN方法的水印去除效果,新增lama_inpaint.py实现LaMa模型的推理,新增watermark_synthesis.py用于合成水印并生成相应的mask,提升水印处理的评估与合成能力。 1 месяц назад
  zhch158_admin d25c465024 feat(新增单元格预处理参数扫描功能): 在cell_preprocess_lab.py中添加参数网格扫描示例,新增cell_sweep.py文件实现单元格裁剪图的预处理参数扫描功能,支持去水印、对比度调整等多种参数配置,提升OCR处理的灵活性与准确性,同时删除不再使用的cell121_sweep.py文件。 1 месяц назад