zhengchun
/
MinerU


			
				
					
						
						
							12345678910111213141516171819202122232425262728293031
							
数据集
======

导入数据类
-----------

数据集
^^^^^^^^

每个 PDF 或图像将形成一个 Dataset。众所周知，PDF 有两种类别：:ref:`TXT <digital_method_section>` 或 :ref:`OCR <ocr_method_section>` 方法部分。从图像中可以获得 ImageDataset，它是 Dataset 的子类；从 PDF 文件中可以获得 PymuDocDataset。ImageDataset 和 PymuDocDataset 之间的区别在于 ImageDataset 仅支持 OCR 解析方法，而 PymuDocDataset 支持 OCR 和 TXT 两种方法。

.. note::

    实际上，有些 PDF 可能是由图像生成的，这意味着它们不支持 `TXT` 方法。目前，由用户保证不会调用 `TXT` 方法来解析图像生成的 PDF

PDF 解析方法
---------------

.. _ocr_method_section:

OCR
^^^^
通过 光学字符识别 技术提取字符。

.. _digital_method_section:

TXT
^^^^^^^^
通过第三方库提取字符，目前我们使用的是 pymupdf。