pdf_image_rendering.py 9.0 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271
  1. """
  2. PDF图像渲染模块
  3. 提供PDF页面渲染为图像的功能,支持多种渲染引擎:
  4. - pypdfium2: MinerU标准引擎(Chrome PDFium),支持多进程加速
  5. - fitz (PyMuPDF): 轻量级替代引擎(MuPDF)
  6. 主要功能:
  7. - 统一的PDF图像加载接口
  8. - 多渲染引擎支持
  9. - 自动处理PDF rotation
  10. - DPI缩放和尺寸限制处理
  11. """
  12. from typing import List, Dict, Any, Optional, Tuple
  13. from PIL import Image
  14. from loguru import logger
  15. def load_images_from_pdf_unified(
  16. pdf_bytes: bytes,
  17. dpi: int = 200,
  18. start_page_id: int = 0,
  19. end_page_id: Optional[int] = None,
  20. image_type: str = "PIL",
  21. renderer: str = "pypdfium2",
  22. timeout: Optional[int] = None,
  23. threads: int = 4,
  24. ) -> Tuple[List[Dict[str, Any]], Any]:
  25. """
  26. 从 PDF 加载图像,支持两种渲染引擎
  27. Args:
  28. pdf_bytes: PDF 文件的字节数据
  29. dpi: 渲染 DPI,默认 200
  30. start_page_id: 起始页码(0-based),默认 0
  31. end_page_id: 结束页码(0-based,包含),默认 None(处理到最后)
  32. image_type: 返回图像类型,"PIL" 或 "BASE64"
  33. renderer: 渲染引擎选择
  34. - "pypdfium2": 使用 MinerU 标准的 pypdfium2(推荐)
  35. * 优势: Chrome PDFium 引擎,多进程加速,更好的细节保留
  36. * 尺寸限制: 3500px,超过则动态调整 scale
  37. - "fitz" / "pymupdf": 使用 PyMuPDF (fitz)
  38. * 优势: MuPDF 引擎,简单直接,无需额外依赖
  39. * 尺寸限制: 4500px,超过则降到 72 DPI
  40. timeout: 超时时间(秒),仅 pypdfium2 支持
  41. threads: 进程数,仅 pypdfium2 支持多进程加速(Windows 下自动禁用)
  42. Returns:
  43. (images_list, pdf_doc)
  44. - images_list: 图像列表,每个元素为 {'img_pil': PIL.Image, 'scale': float}
  45. 或 {'img_base64': str, 'scale': float}(取决于 image_type)
  46. - pdf_doc: PDF 文档对象(pypdfium2.PdfDocument 或 fitz.Document)
  47. Raises:
  48. ImportError: 如果选择的渲染引擎不可用
  49. ValueError: 如果参数无效
  50. TimeoutError: 如果转换超时(仅 pypdfium2)
  51. 渲染引擎对比:
  52. ┌─────────────┬──────────────┬──────────────┐
  53. │ 特性 │ pypdfium2 │ fitz │
  54. ├─────────────┼──────────────┼──────────────┤
  55. │ 渲染引擎 │ Chrome PDFium│ MuPDF │
  56. │ 多进程加速 │ ✅ (非Windows)│ ❌ │
  57. │ 超时控制 │ ✅ │ ❌ │
  58. │ 尺寸限制 │ 3500px │ 4500px │
  59. │ 超限处理 │ 动态调整scale│ 降到72 DPI │
  60. │ 细节保留 │ 更好 │ 良好 │
  61. │ MinerU标准 │ ✅ │ ❌ │
  62. └─────────────┴──────────────┴──────────────┘
  63. 示例:
  64. # 使用 pypdfium2(推荐,MinerU 标准)
  65. images, doc = load_images_from_pdf_unified(
  66. pdf_bytes,
  67. dpi=200,
  68. renderer="pypdfium2",
  69. threads=4
  70. )
  71. # 使用 PyMuPDF (fitz)
  72. images, doc = load_images_from_pdf_unified(
  73. pdf_bytes,
  74. dpi=200,
  75. renderer="fitz"
  76. )
  77. # 访问图像
  78. for img_dict in images:
  79. pil_image = img_dict['img_pil']
  80. scale = img_dict['scale']
  81. # 处理图像...
  82. 注意事项:
  83. 1. pypdfium2 在生产环境中更推荐,因为它是 MinerU 的标准实现
  84. 2. 两种渲染引擎可能产生略有不同的图像(SSIM ≈ 0.945)
  85. 3. 建议在同一项目中保持使用同一渲染引擎,避免不一致
  86. 4. 如果需要与现有测试图像对比,使用相同的渲染引擎
  87. 5. 渲染时会自动应用PDF页面的rotation属性(0/90/180/270)
  88. """
  89. renderer = renderer.lower()
  90. if renderer in ["pypdfium2", "pdfium"]:
  91. return load_images_pypdfium2(
  92. pdf_bytes, dpi, start_page_id, end_page_id,
  93. image_type, timeout, threads
  94. )
  95. elif renderer in ["fitz", "pymupdf", "mupdf"]:
  96. return load_images_fitz(
  97. pdf_bytes, dpi, start_page_id, end_page_id, image_type
  98. )
  99. else:
  100. raise ValueError(
  101. f"不支持的渲染引擎: {renderer}. "
  102. f"请使用 'pypdfium2' 或 'fitz'"
  103. )
  104. def load_images_pypdfium2(
  105. pdf_bytes: bytes,
  106. dpi: int,
  107. start_page_id: int,
  108. end_page_id: Optional[int],
  109. image_type: str,
  110. timeout: Optional[int],
  111. threads: int
  112. ) -> Tuple[List[Dict[str, Any]], Any]:
  113. """
  114. 使用 pypdfium2 渲染引擎(MinerU 标准)
  115. Args:
  116. pdf_bytes: PDF字节数据
  117. dpi: 渲染DPI
  118. start_page_id: 起始页码
  119. end_page_id: 结束页码
  120. image_type: 图像类型 ("PIL" 或 "BASE64")
  121. timeout: 超时时间(秒)
  122. threads: 进程数
  123. Returns:
  124. (images_list, pdf_doc)
  125. Raises:
  126. ImportError: 如果 MinerU 未安装
  127. """
  128. try:
  129. import pypdfium2 as pdfium
  130. from mineru.utils.pdf_image_tools import load_images_from_pdf as mineru_load_images
  131. from mineru.utils.enum_class import ImageType
  132. except ImportError as e:
  133. raise ImportError(
  134. f"pypdfium2 渲染引擎需要安装 MinerU: pip install mineru\n"
  135. f"原始错误: {e}"
  136. )
  137. # 转换 image_type
  138. img_type = ImageType.PIL if image_type.upper() == "PIL" else ImageType.BASE64
  139. # 使用 MinerU 的实现
  140. # 渲染时自动应用rotation
  141. images_list, pdf_doc = mineru_load_images(
  142. pdf_bytes=pdf_bytes,
  143. dpi=dpi,
  144. start_page_id=start_page_id,
  145. end_page_id=end_page_id,
  146. image_type=img_type,
  147. timeout=timeout,
  148. threads=threads
  149. )
  150. logger.info(
  151. f"✅ pypdfium2 渲染完成: {len(images_list)} 页 "
  152. f"(DPI={dpi}, 多进程={threads})"
  153. )
  154. return images_list, pdf_doc
  155. def load_images_fitz(
  156. pdf_bytes: bytes,
  157. dpi: int,
  158. start_page_id: int,
  159. end_page_id: Optional[int],
  160. image_type: str
  161. ) -> Tuple[List[Dict[str, Any]], Any]:
  162. """
  163. 使用 PyMuPDF (fitz) 渲染引擎
  164. Args:
  165. pdf_bytes: PDF字节数据
  166. dpi: 渲染DPI
  167. start_page_id: 起始页码
  168. end_page_id: 结束页码
  169. image_type: 图像类型 ("PIL" 或 "BASE64")
  170. Returns:
  171. (images_list, pdf_doc)
  172. Raises:
  173. ImportError: 如果 PyMuPDF 未安装
  174. """
  175. try:
  176. import fitz
  177. except ImportError as e:
  178. raise ImportError(
  179. f"PyMuPDF 渲染引擎需要安装: pip install PyMuPDF\n"
  180. f"原始错误: {e}"
  181. )
  182. from io import BytesIO
  183. import base64
  184. # 打开 PDF
  185. doc = fitz.open(stream=pdf_bytes, filetype="pdf")
  186. pdf_page_num = doc.page_count
  187. # 处理 end_page_id
  188. if end_page_id is None or end_page_id < 0:
  189. end_page_id = pdf_page_num - 1
  190. end_page_id = min(end_page_id, pdf_page_num - 1)
  191. # 渲染图像
  192. images_list = []
  193. mat = fitz.Matrix(dpi / 72, dpi / 72)
  194. for index in range(start_page_id, end_page_id + 1):
  195. page = doc[index]
  196. # 渲染为 pixmap
  197. # get_pixmap 自动应用 page.rotation
  198. pm = page.get_pixmap(matrix=mat, alpha=False) # type: ignore
  199. # 如果超过尺寸限制,降低到 72 DPI
  200. if pm.width > 4500 or pm.height > 4500:
  201. logger.warning(
  202. f"⚠️ 页面 {index} 尺寸过大 ({pm.width}x{pm.height}), "
  203. f"降低到 72 DPI"
  204. )
  205. mat_fallback = fitz.Matrix(1, 1) # 72 DPI
  206. pm = page.get_pixmap(matrix=mat_fallback, alpha=False) # type: ignore
  207. # 转换为 PIL Image
  208. pil_img = Image.frombytes('RGB', (pm.width, pm.height), pm.samples)
  209. # 计算实际 scale
  210. page_rect = page.rect
  211. actual_scale = pm.width / page_rect.width
  212. # 构建返回字典
  213. image_dict = {
  214. 'img_pil': pil_img,
  215. 'scale': actual_scale
  216. }
  217. # 如果需要 BASE64
  218. if image_type.upper() == "BASE64":
  219. buffer = BytesIO()
  220. pil_img.save(buffer, format="JPEG")
  221. img_base64 = base64.b64encode(buffer.getvalue()).decode('utf-8')
  222. image_dict['img_base64'] = img_base64
  223. # 移除 img_pil 以节省内存
  224. del image_dict['img_pil']
  225. images_list.append(image_dict)
  226. logger.info(
  227. f"✅ PyMuPDF (fitz) 渲染完成: {len(images_list)} 页 "
  228. f"(DPI={dpi}, 单进程)"
  229. )
  230. return images_list, doc