5 дней назад · 92b9d902ee
--- a/ocr_tools/universal_doc_parser/core/layout_model_router.py
+++ b/ocr_tools/universal_doc_parser/core/layout_model_router.py
@@ -97,6 +97,16 @@ class SmartLayoutRouter(BaseLayoutDetector):
 
				     def set_scene_name(self, scene_name: Optional[str]):
			
 
				         """设置场景名称（用于scene策略）"""
			
 
				         self.scene_name = scene_name
			
 
				+
			
 
				+    def _propagate_layout_debug_context(self, model: BaseLayoutDetector) -> None:
			
 
				+        """将路由器上的 debug 上下文传给子 layout 模型（scene/auto 策略需要）。"""
			
 
				+        if not self._is_layout_debug_enabled():
			
 
				+            return
			
 
				+        model.debug_mode = True  # type: ignore[attr-defined]
			
 
				+        if self.output_dir:
			
 
				+            model.output_dir = self.output_dir  # type: ignore[attr-defined]
			
 
				+        if self.page_name:
			
 
				+            model.page_name = self.page_name  # type: ignore[attr-defined]
			
 
				     
			
 
				     def _detect_raw(
			
 
				         self, 
			
@@ -177,7 +187,9 @@ class SmartLayoutRouter(BaseLayoutDetector):
 
				             selected_model = next(iter(self.models.keys()))
			
 
				 
			
 
				         logger.info(f"🎯 Scene strategy selected model: {selected_model} (scene: {self.scene_name})")
			
 
				-        return self.models[selected_model].detect(image)
			
 
				+        model = self.models[selected_model]
			
 
				+        self._propagate_layout_debug_context(model)
			
 
				+        return model.detect(image)
			
 
				     
			
 
				     def _ocr_eval_detect(
			
 
				         self, 
			
@@ -201,14 +213,8 @@ class SmartLayoutRouter(BaseLayoutDetector):
 
				             if model_name == 'fallback':
			
 
				                 continue  # 跳过回退模型（除非所有模型都失败）
			
 
				             try:
			
 
				-                # 传递 debug 模式配置给子模型（如果启用）
			
 
				-                if self.debug_mode:
			
 
				-                    model.debug_mode = self.debug_mode  # type: ignore
			
 
				-                    if self.output_dir:
			
 
				-                        model.output_dir = self.output_dir  # type: ignore
			
 
				-                    if self.page_name:
			
 
				-                        model.page_name = self.page_name  # type: ignore
			
 
				-                
			
 
				+                self._propagate_layout_debug_context(model)
			
 
				+
			
 
				                 # 调用 detect() 方法，基类会自动执行后处理
			
 
				                 results = model.detect(image)
			
 
				                 all_postprocessed_results[model_name] = results
			
@@ -221,13 +227,7 @@ class SmartLayoutRouter(BaseLayoutDetector):
 
				             # 如果所有模型都失败，尝试回退模型
			
 
				             if 'fallback' in self.models:
			
 
				                 logger.info("🔄 All models failed, using fallback model")
			
 
				-                # 传递 debug 模式配置给回退模型（如果启用）
			
 
				-                if self.debug_mode:
			
 
				-                    self.models['fallback'].debug_mode = self.debug_mode  # type: ignore
			
 
				-                    if self.output_dir:
			
 
				-                        self.models['fallback'].output_dir = self.output_dir  # type: ignore
			
 
				-                    if self.page_name:
			
 
				-                        self.models['fallback'].page_name = self.page_name  # type: ignore
			
 
				+                self._propagate_layout_debug_context(self.models['fallback'])
			
 
				                 # 回退模型使用 detect() 方法（会自动执行后处理）
			
 
				                 fallback_result = self.models['fallback'].detect(image)
			
 
				                 return fallback_result
			
@@ -337,10 +337,12 @@ class SmartLayoutRouter(BaseLayoutDetector):
 
				         # 使用选中的模型进行检测（使用 detect() 方法，会自动执行后处理）
			
 
				         if selected_model in self.models:
			
 
				             model = self.models[selected_model]
			
 
				+            self._propagate_layout_debug_context(model)
			
 
				             results = model.detect(image)
			
 
				         else:
			
 
				             # 回退到第一个可用模型
			
 
				             first_model = next(iter(self.models.values()))
			
 
				+            self._propagate_layout_debug_context(first_model)
			
 
				             results = first_model.detect(image)
			
 
				         
			
 
				         return results
			
--- a/ocr_tools/universal_doc_parser/core/pipeline_manager_v2.py
+++ b/ocr_tools/universal_doc_parser/core/pipeline_manager_v2.py
@@ -392,50 +392,42 @@ class EnhancedDocPipeline:
 
				             'pdf_type': pdf_type
			
 
				         }
			
 
				         
			
 
				-        # 用于检测的图片(可能被旋转)
			
 
				-        detection_image = original_image.copy()
			
 
				         rotate_angle = 0
			
 
				+        pdf_rotate_angle: Optional[int] = None
			
 
				+        use_orientation_classifier = pdf_type == 'ocr'
			
 
				 
			
 
				-        # 0. 页级水印去除（全页一次；表格裁剪等下游仅做方向校正，避免重复去水印）
			
 
				-        detection_image = self.preprocessor.remove_watermark(detection_image)
			
 
				-        
			
 
				-        # 1. 页面方向识别
			
 
				-        # rotate_angle统一定义：图像需要逆时针旋转的角度（0/90/180/270）来变为正视
			
 
				-        if pdf_type == 'ocr':
			
 
				-            # 扫描件：使用OCR方向识别
			
 
				-            try:
			
 
				-                detection_image, rotate_angle = self.preprocessor.process(
			
 
				-                    detection_image, skip_watermark=True
			
 
				-                )
			
 
				-                page_result['angle'] = rotate_angle
			
 
				-                
			
 
				-                if rotate_angle != 0:
			
 
				-                    logger.info(f"📐 Page {page_idx}: rotated {rotate_angle}° for detection")
			
 
				-            except Exception as e:
			
 
				-                logger.warning(f"⚠️ Orientation detection failed: {e}")
			
 
				-        elif pdf_type == 'txt' and pdf_doc is not None:
			
 
				-            # 文字PDF：获取PDF页面rotation并转换为统一的rotate_angle定义
			
 
				+        if pdf_type == 'txt' and pdf_doc is not None:
			
 
				             try:
			
 
				                 pdf_rotation_angle = PDFUtils.get_page_rotation(pdf_doc, page_idx)
			
 
				                 if pdf_rotation_angle != 0:
			
 
				-                    # 转换为OCR定义：图像需要逆时针旋转的角度
			
 
				-                    # PDF rotation 270° 表示内容逆时针270° = 顺时针90°
			
 
				-                    # 要恢复正视，需要逆时针90° (即360-270=90)
			
 
				-                    rotate_angle = (360 - pdf_rotation_angle) % 360
			
 
				-                    if rotate_angle == 360:
			
 
				-                        rotate_angle = 0
			
 
				-                    
			
 
				-                    # 将图片旋转为正视（使用rotate_angle，逆时针旋转）
			
 
				-                    from PIL import Image
			
 
				-                    pil_rotated = Image.fromarray(detection_image).rotate(rotate_angle, expand=True)
			
 
				-                    detection_image = np.array(pil_rotated)
			
 
				-                    page_result['angle'] = rotate_angle
			
 
				-                    logger.info(f"📐 Page {page_idx}: PDF rotation {pdf_rotation_angle}°, rotated image {rotate_angle}° to upright")
			
 
				+                    pdf_rotate_angle = (360 - pdf_rotation_angle) % 360
			
 
				+                    if pdf_rotate_angle == 360:
			
 
				+                        pdf_rotate_angle = 0
			
 
				+                    if pdf_rotate_angle:
			
 
				+                        logger.info(
			
 
				+                            f"📐 Page {page_idx}: PDF rotation {pdf_rotation_angle}°, "
			
 
				+                            f"will rotate image {pdf_rotate_angle}° to upright"
			
 
				+                        )
			
 
				             except Exception as e:
			
 
				                 logger.warning(f"⚠️ Failed to get PDF rotation: {e}")
			
 
				 
			
 
				-        
			
 
				-        # 2. Layout检测
			
 
				+        # 0. 页级预处理（方向校正 → 去水印，见 preprocessor.order）
			
 
				+        self._inject_watermark_debug_context(output_dir, page_name)
			
 
				+        try:
			
 
				+            detection_image, rotate_angle = self.preprocessor.prepare_detection_image(
			
 
				+                original_image.copy(),
			
 
				+                pdf_rotate_angle=pdf_rotate_angle,
			
 
				+                use_orientation_classifier=use_orientation_classifier,
			
 
				+            )
			
 
				+            page_result['angle'] = rotate_angle
			
 
				+            page_result['inference_image'] = detection_image
			
 
				+            if rotate_angle != 0:
			
 
				+                logger.info(f"📐 Page {page_idx}: detection image upright (rotate {rotate_angle}°)")
			
 
				+        except Exception as e:
			
 
				+            logger.warning(f"⚠️ Page preprocessing failed, using original copy: {e}")
			
 
				+            detection_image = original_image.copy()
			
 
				+
			
 
				+        # 1. Layout检测
			
 
				         try:
			
 
				             # 如果使用智能路由器且策略是ocr_eval，需要先获取OCR spans（只检测文本框，不识别文字）
			
 
				             ocr_spans_for_layout = None
			
@@ -456,12 +448,18 @@ class EnhancedDocPipeline:
 
				                     except Exception as e:
			
 
				                         logger.warning(f"⚠️ Pre-OCR text box detection for layout evaluation failed: {e}")
			
 
				             
			
 
				-            # 注入每页运行时信息（output_dir/page_name 仅在 layout detector 自身 debug 开启时才有意义）
			
 
				-            if hasattr(self.layout_detector, 'debug_mode') and self.layout_detector.debug_mode:  # type: ignore
			
 
				-                if output_dir and hasattr(self.layout_detector, 'output_dir'):
			
 
				+            # 注入每页运行时信息（SmartLayoutRouter scene 策略需传到子模型）
			
 
				+            layout_dbg = (
			
 
				+                getattr(self.layout_detector, '_is_layout_debug_enabled', None)
			
 
				+                and self.layout_detector._is_layout_debug_enabled()  # type: ignore
			
 
				+            )
			
 
				+            if layout_dbg and hasattr(self.layout_detector, 'output_dir'):
			
 
				+                if output_dir:
			
 
				                     self.layout_detector.output_dir = output_dir  # type: ignore
			
 
				                 if page_name and hasattr(self.layout_detector, 'page_name'):
			
 
				                     self.layout_detector.page_name = page_name  # type: ignore
			
 
				+                if hasattr(self.layout_detector, 'debug_mode'):
			
 
				+                    self.layout_detector.debug_mode = True  # type: ignore
			
 
				             
			
 
				             # 调用layout检测（传递OCR spans如果可用）
			
 
				             if ocr_spans_for_layout is not None and hasattr(self.layout_detector, 'detect'):
			
@@ -543,6 +541,9 @@ class EnhancedDocPipeline:
 
				                 all_ocr_spans = SpanMatcher.remove_duplicate_spans(all_ocr_spans)
			
 
				                 all_ocr_spans = self._sort_spans_by_position(all_ocr_spans)
			
 
				                 logger.info(f"📝 Page {page_idx}: OCR detected {len(all_ocr_spans)} text spans")
			
 
				+                self._save_page_ocr_debug_if_enabled(
			
 
				+                    detection_image, all_ocr_spans, output_dir, page_name
			
 
				+                )
			
 
				             except Exception as e:
			
 
				                 logger.warning(f"⚠️ Full-page OCR failed: {e}")                
			
 
				             # 3.1 调试模式：对比 OCR 和 PDF 提取结果
			
@@ -608,6 +609,57 @@ class EnhancedDocPipeline:
 
				         page_result['discarded_blocks'] = sorted_discarded
			
 
				         return page_result
			
 
				 
			
 
				+    def _is_page_ocr_debug_enabled(self) -> bool:
			
 
				+        opts = self.config.get('ocr_recognition', {}).get('debug_options', {})
			
 
				+        return isinstance(opts, dict) and bool(opts.get('enabled', False))
			
 
				+
			
 
				+    def _save_page_ocr_debug_if_enabled(
			
 
				+        self,
			
 
				+        image: np.ndarray,
			
 
				+        spans: List[Dict[str, Any]],
			
 
				+        output_dir: Optional[str],
			
 
				+        page_name: Optional[str],
			
 
				+    ) -> None:
			
 
				+        """整页 OCR 完成后保存 module debug（底图=inference_image，与 layout 一致）。"""
			
 
				+        if not self._is_page_ocr_debug_enabled() or not output_dir or not page_name:
			
 
				+            return
			
 
				+        from ocr_utils.module_debug_viz import save_ocr_debug
			
 
				+
			
 
				+        opts = self.config.get('ocr_recognition', {}).get('debug_options', {})
			
 
				+        if not isinstance(opts, dict):
			
 
				+            opts = {}
			
 
				+        save_ocr_debug(
			
 
				+            image,
			
 
				+            spans,
			
 
				+            output_dir,
			
 
				+            page_name,
			
 
				+            subdir=opts.get('subdir', 'ocr_recognition'),
			
 
				+            image_format=opts.get('image_format', 'png'),
			
 
				+            save_json=bool(opts.get('save_json', True)),
			
 
				+        )
			
 
				+
			
 
				+    def _inject_watermark_debug_context(
			
 
				+        self,
			
 
				+        output_dir: Optional[str],
			
 
				+        page_name: Optional[str],
			
 
				+    ) -> None:
			
 
				+        """按页注入水印 debug 输出路径（与 layout_detection 一致）。"""
			
 
				+        pre = self.preprocessor
			
 
				+        if pre is None or not hasattr(pre, '_is_watermark_debug_enabled'):
			
 
				+            return
			
 
				+        wm_opts = (
			
 
				+            self.config.get('preprocessor', {})
			
 
				+            .get('watermark_removal', {})
			
 
				+            .get('debug_options', {})
			
 
				+        )
			
 
				+        if not isinstance(wm_opts, dict) or not wm_opts.get('enabled', False):
			
 
				+            return
			
 
				+        if output_dir:
			
 
				+            pre.output_dir = output_dir  # type: ignore[attr-defined]
			
 
				+        if page_name:
			
 
				+            pre.page_name = page_name  # type: ignore[attr-defined]
			
 
				+        pre.debug_mode = True  # type: ignore[attr-defined]
			
 
				+
			
 
				     @staticmethod
			
 
				     def _convert_pdf_blocks_to_spans(
			
 
				         pdf_text_blocks: List[Dict[str, Any]],