6 mesiacov pred · 499120d8c4
--- a/ocr_utils/__init__.py
+++ b/ocr_utils/__init__.py
@@ -8,13 +8,14 @@ OCR 工具包
 
															 - 数字标准化工具
														
 
															 """
														
 
															-from .pdf_utils import PDFUtils
														
 
															+# PDFUtils 和 extract_pdf_pages 使用延迟导入，避免在 PaddleX 环境中触发 MinerU 导入检查
														
 
															+# from .pdf_utils import PDFUtils  # 已移除，改为延迟导入
														
 
															+# from .pdf_extractor import extract_pdf_pages  # 已移除，改为延迟导入（因为它依赖 PDFUtils）
														
 
															 from .json_formatters import JSONFormatters
														
 
															 from .markdown_generator import MarkdownGenerator
														
 
															 from .html_generator import HTMLGenerator
														
 
															 from .visualization_utils import VisualizationUtils
														
 
															 from .output_formatter_v2 import OutputFormatterV2, save_mineru_format
														
 
															-from .pdf_extractor import extract_pdf_pages
														
 
															 from .normalize_financial_numbers import (
														
 
															     normalize_financial_numbers,
														
 
															     normalize_json_table,
														
@@ -29,7 +30,8 @@ from .file_utils import (
 
															     get_image_files_from_csv,
														
 
															     convert_pdf_to_images,
														
 
															     split_files,
														
 
															-    create_temp_file_list
														
 
															+    create_temp_file_list,
														
 
															+    parse_page_range
														
 
															 )
														
 
															 from .log_utils import setup_logging
														
@@ -62,6 +64,7 @@ __all__ = [
 
															     'convert_pdf_to_images',
														
 
															     'split_files',
														
 
															     'create_temp_file_list',
														
 
															+    'parse_page_range',
														
 
															     # 日志工具
														
 
															     'setup_logging',
														
 
															 ]
														
@@ -69,3 +72,17 @@ __all__ = [
 
															 __version__ = "1.0.0"
														
 
															 __author__ = "zhch158"
														
 
															+
														
 
															+def __getattr__(name: str):
														
 
															+    """
														
 
															+    延迟导入 PDFUtils 和 extract_pdf_pages，只有在实际使用时才触发 MinerU 导入检查。
														
 
															+    这样可以在 PaddleX 环境中正常导入 ocr_utils，即使 MinerU 不可用。
														
 
															+    """
														
 
															+    if name == 'PDFUtils':
														
 
															+        from .pdf_utils import PDFUtils
														
 
															+        return PDFUtils
														
 
															+    elif name == 'extract_pdf_pages':
														
 
															+        from .pdf_extractor import extract_pdf_pages
														
 
															+        return extract_pdf_pages
														
 
															+    raise AttributeError(f"module '{__name__}' has no attribute '{name}'")
														
 
															+
														
--- a/ocr_utils/file_utils.py
+++ b/ocr_utils/file_utils.py
@@ -7,8 +7,9 @@
 
															 - 文件列表处理
														
 
															 """
														
 
															 import tempfile
														
 
															+import re
														
 
															 from pathlib import Path
														
 
															-from typing import List, Tuple
														
 
															+from typing import List, Tuple, Optional, Set
														
 
															 import json
														
 
															 import traceback
														
 
															 from loguru import logger
														
@@ -23,6 +24,60 @@ except ImportError:
 
															     ImageType = None
														
 
															+def parse_page_range(page_range: Optional[str], total_pages: int) -> Set[int]:
														
 
															+    """
														
 
															+    解析页面范围字符串
														
 
															+    
														
 
															+    支持格式：
														
 
															+    - "1-5" → {0, 1, 2, 3, 4}（页码从1开始，内部转为0-based索引）
														
 
															+    - "3" → {2}
														
 
															+    - "1-5,7,9-12" → {0, 1, 2, 3, 4, 6, 8, 9, 10, 11}
														
 
															+    - "1-" → 从第1页到最后
														
 
															+    - "-5" → 从第1页到第5页
														
 
															+    
														
 
															+    Args:
														
 
															+        page_range: 页面范围字符串（页码从1开始）
														
 
															+        total_pages: 总页数
														
 
															+        
														
 
															+    Returns:
														
 
															+        页面索引集合（0-based）
														
 
															+    """
														
 
															+    if not page_range or not page_range.strip():
														
 
															+        return set(range(total_pages))
														
 
															+    
														
 
															+    pages = set()
														
 
															+    parts = page_range.replace(' ', '').split(',')
														
 
															+    
														
 
															+    for part in parts:
														
 
															+        part = part.strip()
														
 
															+        if not part:
														
 
															+            continue
														
 
															+        
														
 
															+        if '-' in part:
														
 
															+            # 范围格式
														
 
															+            match = re.match(r'^(\d*)-(\d*)$', part)
														
 
															+            if match:
														
 
															+                start_str, end_str = match.groups()
														
 
															+                start = int(start_str) if start_str else 1
														
 
															+                end = int(end_str) if end_str else total_pages
														
 
															+                
														
 
															+                # 转换为 0-based 索引
														
 
															+                start = max(0, start - 1)
														
 
															+                end = min(total_pages, end)
														
 
															+                
														
 
															+                pages.update(range(start, end))
														
 
															+        else:
														
 
															+            # 单页
														
 
															+            try:
														
 
															+                page_num = int(part)
														
 
															+                if 1 <= page_num <= total_pages:
														
 
															+                    pages.add(page_num - 1)  # 转换为 0-based 索引
														
 
															+            except ValueError:
														
 
															+                logger.warning(f"Invalid page number: {part}")
														
 
															+    
														
 
															+    return pages
														
 
															+
														
 
															+
														
 
															 def split_files(file_list: List[str], num_splits: int) -> List[List[str]]:
														
 
															     """
														
 
															     将文件列表分割成指定数量的子列表
														
@@ -235,62 +290,107 @@ def convert_pdf_to_images(
 
															     output_path.mkdir(parents=True, exist_ok=True)
														
 
															     try:
														
 
															-        # 使用MinerU的函数加载PDF图像
														
 
															-        if not MINERU_AVAILABLE or load_images_from_pdf is None or ImageType is None:
														
 
															-            logger.error("❌ MinerU components not available for PDF to image conversion")
														
 
															-            return []
														
 
															-        
														
 
															-        images, _ = load_images_from_pdf(
														
 
															-            pdf_path.read_bytes(),
														
 
															-            dpi=dpi,
														
 
															-            image_type=ImageType.PIL  # 返回包含 img_pil 的字典列表
														
 
															-        )
														
 
															-        
														
 
															-        # 应用页面范围过滤
														
 
															-        selected_pages = None
														
 
															-        if page_range:
														
 
															-            from .pdf_utils import PDFUtils
														
 
															-            total_pages = len(images)
														
 
															-            selected_pages = PDFUtils.parse_page_range(page_range, total_pages)
														
 
															-            if selected_pages:
														
 
															-                images = [images[i] for i in sorted(selected_pages)]
														
 
															-                logger.info(f"📋 PDF 共 {total_pages} 页，选择处理 {len(images)} 页")
														
 
															+        # 优先使用 MinerU 的函数（如果可用）
														
 
															+        if MINERU_AVAILABLE and load_images_from_pdf is not None and ImageType is not None:
														
 
															+            images, _ = load_images_from_pdf(
														
 
															+                pdf_path.read_bytes(),
														
 
															+                dpi=dpi,
														
 
															+                image_type=ImageType.PIL  # 返回包含 img_pil 的字典列表
														
 
															+            )
														
 
															+            
														
 
															+            # 应用页面范围过滤
														
 
															+            selected_pages = None
														
 
															+            if page_range:
														
 
															+                total_pages = len(images)
														
 
															+                selected_pages = parse_page_range(page_range, total_pages)
														
 
															+                if selected_pages:
														
 
															+                    images = [images[i] for i in sorted(selected_pages)]
														
 
															+                    logger.info(f"📋 PDF 共 {total_pages} 页，选择处理 {len(images)} 页")
														
 
															+                else:
														
 
															+                    logger.warning(f"⚠️ 页面范围 '{page_range}' 没有匹配到任何有效页面")
														
 
															+                    return []
														
 
															             else:
														
 
															-                logger.warning(f"⚠️ 页面范围 '{page_range}' 没有匹配到任何有效页面")
														
 
															-                return []
														
 
															-        
														
 
															-        image_paths = []
														
 
															-        # 需要跟踪原始页码索引，以便正确命名文件
														
 
															-        original_indices = sorted(selected_pages) if selected_pages else list(range(len(images)))
														
 
															-        
														
 
															-        for idx, image in enumerate(images):
														
 
															-            # 获取原始页码索引（用于文件命名）
														
 
															-            original_idx = original_indices[idx] if selected_pages else idx
														
 
															-            # 生成图像文件名（使用原始页码，从1开始）
														
 
															-            image_filename = f"{pdf_path.stem}_page_{original_idx + 1:03d}.png"
														
 
															-            image_path = output_path / image_filename
														
 
															+                selected_pages = None
														
 
															+            
														
 
															+            image_paths = []
														
 
															+            # 需要跟踪原始页码索引，以便正确命名文件
														
 
															+            original_indices = sorted(selected_pages) if selected_pages else list(range(len(images)))
														
 
															+            
														
 
															+            for idx, image in enumerate(images):
														
 
															+                # 获取原始页码索引（用于文件命名）
														
 
															+                original_idx = original_indices[idx] if selected_pages else idx
														
 
															+                # 生成图像文件名（使用原始页码，从1开始）
														
 
															+                image_filename = f"{pdf_path.stem}_page_{original_idx + 1:03d}.png"
														
 
															+                image_path = output_path / image_filename
														
 
															-            # 保存图像 - 从字典中提取 img_pil
														
 
															-            if isinstance(image, dict):
														
 
															-                pil_image = image.get('img_pil')
														
 
															-                if pil_image is None:
														
 
															-                    logger.error(f"❌ Image dict at index {idx} does not contain 'img_pil' key")
														
 
															-                    continue
														
 
															-                pil_image.save(str(image_path))
														
 
															-            else:
														
 
															-                # 如果不是字典，假设是直接的 PIL Image
														
 
															-                image.save(str(image_path))
														
 
															-            image_paths.append(str(image_path))
														
 
															+                # 保存图像 - 从字典中提取 img_pil
														
 
															+                if isinstance(image, dict):
														
 
															+                    pil_image = image.get('img_pil')
														
 
															+                    if pil_image is None:
														
 
															+                        logger.error(f"❌ Image dict at index {idx} does not contain 'img_pil' key")
														
 
															+                        continue
														
 
															+                    pil_image.save(str(image_path))
														
 
															+                else:
														
 
															+                    # 如果不是字典，假设是直接的 PIL Image
														
 
															+                    image.save(str(image_path))
														
 
															+                image_paths.append(str(image_path))
														
 
															-        logger.info(f"✅ Converted {len(images)} pages from {pdf_path.name} to images")
														
 
															-        return image_paths
														
 
															+            logger.info(f"✅ Converted {len(images)} pages from {pdf_path.name} to images (using MinerU)")
														
 
															+            return image_paths
														
 
															+        
														
 
															+        else:
														
 
															+            # Fallback: 使用 pypdfium2（PaddleX 环境中可用）
														
 
															+            logger.info("ℹ️  MinerU 不可用，使用 pypdfium2 进行 PDF 转图像")
														
 
															+            try:
														
 
															+                import pypdfium2 as pdfium
														
 
															+            except ImportError:
														
 
															+                logger.error("❌ pypdfium2 未安装，无法转换 PDF。请安装: pip install pypdfium2")
														
 
															+                return []
														
 
															+            
														
 
															+            pdf_doc = pdfium.PdfDocument(pdf_path)
														
 
															+            try:
														
 
															+                total_pages = len(pdf_doc)
														
 
															+                
														
 
															+                # 解析页面范围（使用本地函数，不依赖 PDFUtils）
														
 
															+                selected_pages = parse_page_range(page_range, total_pages)
														
 
															+                if not selected_pages:
														
 
															+                    logger.warning(f"⚠️ 页面范围 '{page_range}' 没有匹配到任何有效页面")
														
 
															+                    return []
														
 
															+                
														
 
															+                if page_range:
														
 
															+                    logger.info(f"📋 PDF 共 {total_pages} 页，选择处理 {len(selected_pages)} 页")
														
 
															+                
														
 
															+                # 计算缩放比例（DPI 转换）
														
 
															+                # pypdfium2 的 scale 参数：1.0 = 72 DPI，所以 dpi/72 = scale
														
 
															+                scale = dpi / 72.0
														
 
															+                
														
 
															+                image_paths = []
														
 
															+                for page_idx in sorted(selected_pages):
														
 
															+                    page = pdf_doc[page_idx]
														
 
															+                    
														
 
															+                    # 渲染页面为图像
														
 
															+                    bitmap = page.render(scale=scale)
														
 
															+                    pil_image = bitmap.to_pil()
														
 
															+                    
														
 
															+                    # 生成图像文件名（页码从1开始）
														
 
															+                    image_filename = f"{pdf_path.stem}_page_{page_idx + 1:03d}.png"
														
 
															+                    image_path = output_path / image_filename
														
 
															+                    
														
 
															+                    # 保存图像
														
 
															+                    pil_image.save(str(image_path))
														
 
															+                    image_paths.append(str(image_path))
														
 
															+                
														
 
															+                logger.info(f"✅ Converted {len(image_paths)} pages from {pdf_path.name} to images (using pypdfium2)")
														
 
															+                return image_paths
														
 
															+                
														
 
															+            finally:
														
 
															+                pdf_doc.close()
														
 
															     except Exception as e:
														
 
															         logger.error(f"❌ Error converting PDF {pdf_path}: {e}")
														
 
															         traceback.print_exc()
														
 
															         return []
														
 
															-
														
 
															 def get_input_files(args, page_range: str | None = None) -> List[str]:
														
 
															     """
														
 
															     获取输入文件列表，统一处理PDF和图像文件，支持页面范围过滤
														
@@ -356,9 +456,8 @@ def get_input_files(args, page_range: str | None = None) -> List[str]:
 
															         # 对于图片目录，应用页面范围过滤
														
 
															         if page_range and image_files:
														
 
															-            from .pdf_utils import PDFUtils
														
 
															             total_pages = len(image_files)
														
 
															-            selected_pages = PDFUtils.parse_page_range(page_range, total_pages)
														
 
															+            selected_pages = parse_page_range(page_range, total_pages)
														
 
															             if selected_pages:
														
 
															                 image_files = [image_files[i] for i in sorted(selected_pages)]
														
 
															                 logger.info(f"📋 图片目录共 {total_pages} 张，选择处理 {len(image_files)} 张")
														
--- a/ocr_utils/pdf_extractor.py
+++ b/ocr_utils/pdf_extractor.py
@@ -23,7 +23,7 @@ except ImportError:
 
															     pdfium = None
														
 
															 from loguru import logger
														
 
															-from .pdf_utils import PDFUtils
														
 
															+from .file_utils import parse_page_range
														
 
															 def extract_pdf_pages(
														
@@ -197,7 +197,7 @@ def main():
 
															         sys.exit(1)
														
 
															     # 解析页面范围
														
 
															-    page_set = PDFUtils.parse_page_range(args.pages, total_pages)
														
 
															+    page_set = parse_page_range(args.pages, total_pages)
														
 
															     page_indices = sorted(list(page_set))
														
 
															     if not page_indices:
														
--- a/ocr_utils/pdf_utils.py
+++ b/ocr_utils/pdf_utils.py
@@ -13,6 +13,9 @@ from PIL import Image
 
															 from loguru import logger
														
 
															 import re
														
 
															+# 导入页面范围解析函数（不依赖 MinerU）
														
 
															+from .file_utils import parse_page_range
														
 
															+
														
 
															 # 导入 MinerU 组件
														
 
															 try:
														
 
															     from mineru.utils.pdf_classify import classify as pdf_classify
														
@@ -29,7 +32,10 @@ class PDFUtils:
 
															     @staticmethod
														
 
															     def parse_page_range(page_range: Optional[str], total_pages: int) -> Set[int]:
														
 
															         """
														
 
															-        解析页面范围字符串
														
 
															+        解析页面范围字符串（向后兼容包装函数）
														
 
															+        
														
 
															+        此方法是对 file_utils.parse_page_range 的包装，保持向后兼容性。
														
 
															+        新代码应直接使用 file_utils.parse_page_range。
														
 
															         支持格式：
														
 
															         - "1-5" → {0, 1, 2, 3, 4}（页码从1开始，内部转为0-based索引）
														
@@ -45,40 +51,7 @@ class PDFUtils:
 
															         Returns:
														
 
															             页面索引集合（0-based）
														
 
															         """
														
 
															-        if not page_range or not page_range.strip():
														
 
															-            return set(range(total_pages))
														
 
															-        
														
 
															-        pages = set()
														
 
															-        parts = page_range.replace(' ', '').split(',')
														
 
															-        
														
 
															-        for part in parts:
														
 
															-            part = part.strip()
														
 
															-            if not part:
														
 
															-                continue
														
 
															-            
														
 
															-            if '-' in part:
														
 
															-                # 范围格式
														
 
															-                match = re.match(r'^(\d*)-(\d*)$', part)
														
 
															-                if match:
														
 
															-                    start_str, end_str = match.groups()
														
 
															-                    start = int(start_str) if start_str else 1
														
 
															-                    end = int(end_str) if end_str else total_pages
														
 
															-                    
														
 
															-                    # 转换为 0-based 索引
														
 
															-                    start = max(0, start - 1)
														
 
															-                    end = min(total_pages, end)
														
 
															-                    
														
 
															-                    pages.update(range(start, end))
														
 
															-            else:
														
 
															-                # 单页
														
 
															-                try:
														
 
															-                    page_num = int(part)
														
 
															-                    if 1 <= page_num <= total_pages:
														
 
															-                        pages.add(page_num - 1)  # 转换为 0-based 索引
														
 
															-                except ValueError:
														
 
															-                    logger.warning(f"Invalid page number: {part}")
														
 
															-        
														
 
															-        return pages
														
 
															+        return parse_page_range(page_range, total_pages)
														
 
															     @staticmethod
														
 
															     def load_and_classify_document(
														
@@ -116,7 +89,7 @@ class PDFUtils:
 
															             # 解析页面范围
														
 
															             total_pages = len(image_files)
														
 
															-            selected_pages = PDFUtils.parse_page_range(page_range, total_pages)
														
 
															+            selected_pages = parse_page_range(page_range, total_pages)
														
 
															             if page_range:
														
 
															                 logger.info(f"📋 图片目录共 {total_pages} 张，选择处理 {len(selected_pages)} 张")
														
@@ -159,7 +132,7 @@ class PDFUtils:
 
															             # 解析页面范围
														
 
															             total_pages = len(images_list)
														
 
															-            selected_pages = PDFUtils.parse_page_range(page_range, total_pages)
														
 
															+            selected_pages = parse_page_range(page_range, total_pages)
														
 
															             if page_range:
														
 
															                 logger.info(f"📋 PDF 共 {total_pages} 页，选择处理 {len(selected_pages)} 页")