|
|
@@ -26,7 +26,7 @@ preprocessor:
|
|
|
# 水印去除配置(适用于银行流水浅色斜向文字水印)
|
|
|
# -------------------------------------------------------
|
|
|
watermark_removal:
|
|
|
- enabled: true # 是否启用水印去除
|
|
|
+ enabled: false # 是否启用水印去除
|
|
|
method: masked_adaptive # threshold | masked | masked_adaptive
|
|
|
threshold: 175 # 全局阈值或掩膜失败时的回退阈值(140-180)
|
|
|
morph_close_kernel: 0 # 去水印后灰度图闭运算,0 跳过
|
|
|
@@ -92,6 +92,7 @@ preprocessor:
|
|
|
enabled: false # 由命令行 --debug / --debug-layout 统一控制
|
|
|
output_dir: null # null 时使用 pipeline 输出目录
|
|
|
prefix: "" # 文件名前缀(运行时注入 page_name)
|
|
|
+ subdir: watermark_removal # 输出至 debug/watermark_removal/
|
|
|
save_compare: true # 保存左右对比图 *_watermark_compare.*
|
|
|
image_format: "png" # jpg / png
|
|
|
|
|
|
@@ -142,7 +143,7 @@ layout_detection:
|
|
|
enabled: false # 由命令行 --debug / --debug-layout 控制
|
|
|
output_dir: null # null 时由 pipeline 按页注入
|
|
|
prefix: ""
|
|
|
- subdir: layout_detection # 输出至 debug_comparison/layout_detection/
|
|
|
+ subdir: layout_detection # 输出至 debug/layout_detection/
|
|
|
save_raw: true # 后处理前
|
|
|
save_post_processed: true # 后处理后
|
|
|
save_json: true
|
|
|
@@ -165,7 +166,7 @@ ocr_recognition:
|
|
|
enabled: false # 由命令行 --debug / --debug-ocr 控制
|
|
|
output_dir: null
|
|
|
prefix: ""
|
|
|
- subdir: ocr_recognition # 输出至 debug_comparison/ocr_recognition/
|
|
|
+ subdir: ocr_recognition # 输出至 debug/ocr_recognition/
|
|
|
save_json: true
|
|
|
image_format: png
|
|
|
|
|
|
@@ -180,11 +181,12 @@ table_classification:
|
|
|
|
|
|
# Debug 可视化配置
|
|
|
debug_options:
|
|
|
- enabled: false # 由命令行 --debug 统一控制,勿在此 hardcode true
|
|
|
- output_dir: null # 调试输出目录;null不输出
|
|
|
- save_table_lines: true # 保存表格线可视化(unet横线/竖线叠加)
|
|
|
- image_format: "png" # 可视化图片格式:png/jpg
|
|
|
- prefix: "" # 保存文件名前缀(如设置为页码/表格序号)
|
|
|
+ enabled: false # 由命令行 --debug / --debug-table 统一控制
|
|
|
+ output_dir: null # null 时由 pipeline 按页注入
|
|
|
+ prefix: ""
|
|
|
+ subdir: table_classification # 输出至 debug/table_classification/
|
|
|
+ save_table_lines: true # paddle 线条检测叠加图
|
|
|
+ image_format: "png"
|
|
|
|
|
|
# ============================================================
|
|
|
# 有线表格识别专用配置(MinerU UNet)
|
|
|
@@ -224,14 +226,16 @@ table_recognition_wired:
|
|
|
|
|
|
# Debug 可视化配置
|
|
|
debug_options:
|
|
|
- enabled: false # 由命令行 --debug 统一控制,勿在此 hardcode true
|
|
|
- output_dir: null # 调试输出目录;null不输出
|
|
|
- save_table_lines: true # 保存表格线可视化(unet横线/竖线叠加)
|
|
|
- save_connected_components: true # 保存连通域提取的单元格图
|
|
|
- save_grid_structure: true # 保存逻辑网格结构(row/col/rowspan/colspan)
|
|
|
- save_text_overlay: true # 保存文本填充覆盖图
|
|
|
- image_format: "png" # 可视化图片格式:png/jpg
|
|
|
- prefix: "" # 保存文件名前缀(如设置为页码/表格序号)
|
|
|
+ enabled: false # 由命令行 --debug / --debug-table 统一控制
|
|
|
+ output_dir: null # null 时由 pipeline 按页注入
|
|
|
+ prefix: ""
|
|
|
+ subdir: table_recognition_wired # 输出至 debug/table_recognition_wired/
|
|
|
+ save_table_lines: true
|
|
|
+ save_connected_components: true
|
|
|
+ save_grid_structure: true
|
|
|
+ save_text_overlay: true
|
|
|
+ image_format: "png"
|
|
|
+ # 单元格二次 OCR 裁剪图:debug/table_recognition_wired/tablecell_ocr/
|
|
|
|
|
|
# ============================================================
|
|
|
# VL识别配置 - 使用 GLM-OCR(无线表格 + seal识别)
|