Историја ревизија

Аутор SHA1 Порука Датум
  zhch158_admin 62bfdb256f feat(新增汇总推荐配置与批量扫描功能): 新增aggregate_recommendation.json文件以支持多案例的汇总推荐,更新cell_sweep.py以实现批量扫描和命中率统计功能,提升OCR处理的灵活性与准确性。同时新增sweep_cases.json文件以定义多个测试案例。 пре 10 часа
  zhch158_admin ba79f0c7d9 feat(新增多个单元格原始图像文件): 新增多个空白和带线条的单元格原始图像文件,以支持后续的OCR处理和实验。 пре 10 часа
  zhch158_admin dbc00409e6 fix(优化二次OCR配置): 将二次OCR逻辑参数硬编码,移除YAML配置覆盖,调整suspicious_short_min_chars默认值为4,优化光照增强配置,提升OCR处理的准确性与一致性。 пре 2 дана
  zhch158_admin 6d733e96c5 fix(优化单元格二次OCR配置): 更新bank_statement_yusys_local.yaml中的二次OCR配置,调整参数以增强水印去除和对比度处理,提升OCR处理的准确性与灵活性。 пре 2 дана
  zhch158_admin 9780104eed feat(重构实验模块与单元格预处理功能): 删除cell_sweep.py,新增cell_preprocess_lab.py和cell_sweep.py,整合单元格裁剪图预处理与参数扫描功能,优化水印去除、对比度增强及放大处理,提升OCR处理的准确性与灵活性。同时新增实验模块集合与README文档,明确各子模块功能与用法。 пре 2 дана
  zhch158_admin 092154445c fix(优化水印去除配置): 更新bank_statement_glm_vl_local.yaml中的水印去除设置,启用检测前处理,调整对比度增强选项,提升OCR处理的准确性与灵活性。 пре 3 дана
  zhch158_admin 01c5c02e94 feat(新增项目规则文件): 创建项目规则文件,明确所有回答需使用中文及开发运行时需激活`mineru`环境的要求,提升项目规范性与可维护性。 пре 3 дана
  zhch158_admin 937aab7790 fix(更新OCR结果对比路径与内容提取逻辑): 修改compare_ocr_results.py中的文件路径以适应新的数据源,同时在content_extractor.py中新增HTML注释移除功能,优化段落提取逻辑,提升OCR处理的准确性与灵活性。 пре 3 дана
  zhch158_admin 55ca99c249 feat(新增项目通用约定文档): 创建项目通用约定文档,明确使用简体中文进行交流及命令执行时需激活`mineru`环境的要求,提升项目规范性与可维护性。 пре 3 дана
  zhch158_admin b210ab056b fix(优化水印处理与布局检测配置): 更新多个bank_statement配置文件,调整水印去除设置,启用检测前处理,优化布局检测模块,新增OCR识别和表格分类功能,提升整体OCR处理的准确性与灵活性。 пре 4 дана
  zhch158_admin 70f36c0904 fix(调整水印处理与单元格预处理配置): 更新bank_statement_yusys_local.yaml中的水印处理方法和对比度增强设置,调整阈值和启用状态,以优化OCR处理效果和灵活性。 пре 4 дана
  zhch158_admin b11fe5592e fix(调整阈值以优化水印处理): 修改水印处理模块中的阈值设置,将单元格处理的阈值从170调整至155,以提升OCR处理的准确性和灵活性。 пре 4 дана
  zhch158_admin a2311846f1 feat(增强二次OCR处理与单元格预处理功能): 在test_second_pass_ocr_aggregate.py中新增测试类和用例,验证短文本最小字符配置、单元格预处理的对比度调整及水印处理逻辑,提升OCR处理的准确性与灵活性。 пре 4 дана
  zhch158_admin df98998bd5 feat(优化文本填充与OCR识别逻辑): 更新TextFiller类,新增短文本最小字符配置,重构识别逻辑以支持更灵活的文本解析和分数归一化,优化单元格对比度调整与增强功能,提升OCR处理的准确性与灵活性。 пре 4 дана
  zhch158_admin eb694a01bb feat(新增水印评估与合成模块): 添加evaluate.py用于对比baseline与LaMa GAN方法的水印去除效果,新增lama_inpaint.py实现LaMa模型的推理,新增watermark_synthesis.py用于合成水印并生成相应的mask,提升水印处理的评估与合成能力。 пре 4 дана
  zhch158_admin d25c465024 feat(新增单元格预处理参数扫描功能): 在cell_preprocess_lab.py中添加参数网格扫描示例,新增cell_sweep.py文件实现单元格裁剪图的预处理参数扫描功能,支持去水印、对比度调整等多种参数配置,提升OCR处理的灵活性与准确性,同时删除不再使用的cell121_sweep.py文件。 пре 4 дана
  zhch158_admin 95bfd4baed feat(更新水印去除模块文档): 扩展水印去除模块的文档,详细描述水印处理能力、适用场景及参数配置,增加对页级和格级处理的说明,优化用户理解与使用体验。 пре 4 дана
  zhch158_admin 75d01a1ed5 feat(重构水印处理模块): 将水印处理功能从ocr_utils.watermark_utils迁移至ocr_utils.watermark子模块,新增水印检测、去除、对比度增强等功能,优化模块结构以提升可维护性和扩展性,同时保留与历史导入路径的兼容性。 пре 4 дана
  zhch158_admin 40b88e07b3 feat(新增水印处理单元测试): 在test_watermark_processor.py中新增多个测试用例,验证WatermarkProcessor和merge_watermark_config的功能,确保水印处理逻辑的准确性和可靠性。 пре 4 дана
  zhch158_admin b68a0e5003 feat(新增二次OCR处理与测试用例): 在test_second_pass_ocr_aggregate.py中新增多个测试类和用例,验证整体OCR处理逻辑,包括短文本高分触发整体OCR和空行触发逻辑,增强对银行对账单的二次OCR触发条件的测试,提升OCR处理的准确性和可靠性。 пре 4 дана
  zhch158_admin 9dd99bce76 feat(优化水印处理与OCR逻辑): 重构MinerUPreprocessor类以整合WatermarkProcessor,简化水印去除流程并增强对比度调整功能,同时更新MinerUWiredTableRecognizer类以支持更灵活的单元格OCR处理,提升整体OCR准确性与灵活性。 пре 4 дана
  zhch158_admin 73e783c91b feat(增强文本填充与OCR识别逻辑): 更新TextFiller类,新增多项配置选项以优化单元格OCR处理,重构识别逻辑以支持详细的行识别和边界框返回,提升OCR的准确性和灵活性。 пре 4 дана
  zhch158_admin 6f98aaba58 feat(优化银行对账单水印去除与单元格二次OCR配置): 更新bank_statement_yusys_local.yaml,简化水印去除配置,增强对水印检测的支持,新增单元格预处理选项,提升OCR处理的灵活性和准确性。 пре 4 дана
  zhch158_admin 0ba1d33741 feat(增强水印去除工具的配置与处理能力): 更新remove_watermark.py,重构水印设置加载逻辑,支持根据scope参数选择不同的水印配置,新增WatermarkProcessor类以优化水印去除过程,提升OCR处理的灵活性和准确性。 пре 4 дана
  zhch158_admin 130984410f feat(新增单元格预处理与参数扫描功能): 在ocr_tools/cell_preprocess_lab中新增cell_preprocess_lab.py和cell121_sweep.py文件,分别实现单元格裁剪图的预处理流程和参数扫描功能,支持去水印、去噪、对比度调整及OCR识别,提升OCR处理的灵活性和准确性。 пре 4 дана
  zhch158_admin e2bb737026 feat(新增单元格匹配框处理单元测试): 在test_second_pass_ocr_aggregate.py中新增TestResolveCellMatchedBoxes类,包含多个测试用例以验证单元格匹配框的处理逻辑,确保在不同情况下的文本填充和分数计算的准确性,提升OCR处理的可靠性和可维护性。 пре 5 дана
  zhch158_admin fdef502446 feat(添加虚线段绘制功能): 在module_debug_viz.py中新增虚线段绘制函数,支持在OCR span无文本时使用虚线框显示,提升可视化效果和调试灵活性。 пре 5 дана
  zhch158_admin 398929fec5 fix(修复无效ocr_poly处理逻辑): 注释掉无效的ocr_poly和文本检查逻辑,确保在ocr_poly为空时返回None,提升代码的健壮性和可读性。 пре 5 дана
  zhch158_admin 3099890b65 feat(增强文本填充逻辑与边界框处理): 更新TextFiller类中的文本填充逻辑,确保在文本为空时返回0分数;新增多个静态方法以处理边界框的面积计算、嵌套框的识别和调试标签生成,提升OCR处理的准确性和可维护性。 пре 5 дана
  zhch158_admin 8e61a877b0 feat(添加二次OCR聚合与择优逻辑单元测试): 新增针对二次OCR的聚合、择优逻辑及调试功能的单元测试,提升OCR处理的准确性和可维护性。 пре 5 дана