MinerU 是一款一站式、开源、高质量的数据提取工具,主要包含以下功能:
Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。
主要功能包含
https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c
python >= 3.9
推荐使用虚拟环境,以避免可能发生的依赖冲突,venv和conda均可使用。
例如:
conda create -n MinerU python=3.10
conda activate MinerU
开发基于python 3.10,如果在其他版本python出现问题请切换至3.10。
使用pip安装完整功能包:
受pypi限制,pip安装的完整功能包仅支持cpu推理,建议只用于快速测试解析能力。
如需在生产环境使用CUDA/MPS加速请参考使用CUDA或MPS加速推理
pip install magic-pdf[full-cpu]❗️已收到多起由于镜像源和依赖冲突问题导致安装了错误版本软件包的反馈,请务必安装完成后通过以下命令验证版本是否正确
> magic-pdf --version > ``` > 如版本低于0.6.x,请提交issue进行反馈。 完整功能包依赖detectron2,该库需要编译安装,如需自行编译,请参考 https://github.com/facebookresearch/detectron2/issues/5114 或是直接使用我们预编译的whl包: > ❗️预编译版本仅支持64位系统(windows/linux/macOS)+pyton 3.10平台;不支持任何32位系统和非mac的arm平台,如系统不支持请自行编译安装。bash pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/
#### 2. 下载模型权重文件 详细参考 [如何下载模型文件](docs/how_to_download_models_zh_cn.md) 下载后请将models目录移动到空间较大的ssd磁盘目录 #### 3. 拷贝配置文件并进行配置 在仓库根目录可以获得 [magic-pdf.template.json](magic-pdf.template.json) 配置模版文件 > ❗️务必执行以下命令将配置文件拷贝到用户目录下,否则程序将无法运行bash cp magic-pdf.template.json ~/magic-pdf.json
在用户目录中找到magic-pdf.json文件并配置"models-dir"为[2. 下载模型权重文件](#2-下载模型权重文件)中下载的模型权重文件所在目录 > ❗️务必正确配置模型权重文件所在目录,否则会因为找不到模型文件而导致程序无法运行json { "models-dir": "/tmp/models" }
#### 4. 使用CUDA或MPS加速推理 如您有可用的Nvidia显卡或在使用Apple Silicon的Mac,可以使用CUDA或MPS进行加速 ##### CUDA 需要根据自己的CUDA版本安装对应的pytorch版本 以下是对应CUDA 11.8版本的安装命令,更多信息请参考 https://pytorch.org/get-started/locally/bash pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
同时需要修改配置文件magic-pdf.json中"device-mode"的值json { "device-mode":"cuda" }
##### MPS 使用macOS(M系列芯片设备)可以使用MPS进行推理加速 需要修改配置文件magic-pdf.json中"device-mode"的值json { "device-mode":"mps" }
### 使用说明 #### 1. 通过命令行使用 ###### 直接使用bash magic-pdf pdf-command --pdf "pdf_path" --inside_model true
程序运行完成后,你可以在"/tmp/magic-pdf"目录下看到生成的markdown文件,markdown目录中可以找到对应的xxx_model.json文件 如果您有意对后处理pipeline进行二次开发,可以使用命令bash magic-pdf pdf-command --pdf "pdf_path" --model "model_json_path"
这样就不需要重跑模型数据,调试起来更方便 ###### 更多用法bash magic-pdf --help
#### 2. 通过接口调用 ###### 本地使用python image_writer = DiskReaderWriter(local_image_dir) image_dir = str(os.path.basename(local_image_dir)) jso_useful_key = {"_pdf_type": "", "model_list": model_json} pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer) pipe.pipe_classify() pipe.pipe_parse() md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
###### 在对象存储上使用python s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint) image_dir = "s3://img_bucket/" s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir) pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN) jso_useful_key = {"_pdf_type": "", "model_list": model_json} pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli) pipe.pipe_classify() pipe.pipe_parse() md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
详细实现可参考 [demo.py](demo/demo.py) ### 常见问题处理解答 参考 [FAQ](docs/FAQ_zh_cn.md) # Magic-Doc ## 简介 Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。 主要功能包含 - Web网页提取 - 跨模态精准解析图文、表格、公式信息 - 电子书文献提取 - 支持 epub,mobi等多格式文献,文本图片全适配 - 语言类型鉴定 - 支持176种语言的准确识别 https://github.com/opendatalab/MinerU/assets/11393164/a5a650e9-f4c0-463e-acc3-960967f1a1ca https://github.com/opendatalab/MinerU/assets/11393164/0f4a6fe9-6cca-4113-9fdc-a537749d764d https://github.com/opendatalab/MinerU/assets/11393164/20438a02-ce6c-4af8-9dde-d722a4e825b2 ## 项目仓库 - [Magic-Doc](https://github.com/InternLM/magic-doc) 优秀的网页与电子书提取工具 ## 感谢我们的贡献者 <a href="https://github.com/magicpdf/Magic-PDF/graphs/contributors"> <img src="https://contrib.rocks/image?repo=opendatalab/MinerU" /> </a> ## 版权说明 [LICENSE.md](LICENSE.md) 本项目目前采用PyMuPDF以实现高级功能,但因其遵循AGPL协议,可能对某些使用场景构成限制。未来版本迭代中,我们计划探索并替换为许可条款更为宽松的PDF处理库,以提升用户友好度及灵活性。 ## 致谢 - [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR) - [PyMuPDF](https://github.com/pymupdf/PyMuPDF) - [fast-langdetect](https://github.com/LlmKira/fast-langdetect) - [pdfminer.six](https://github.com/pdfminer/pdfminer.six) # 引用bibtex @misc{2024mineru,
title={MinerU: A One-stop, Open-source, High-quality Data Extraction Tool}, author={MinerU Contributors}, howpublished = {\url{https://github.com/opendatalab/MinerU}}, year={2024}} ```