|
|
@@ -48,21 +48,21 @@
|
|
|
|
|
|
# 更新记录
|
|
|
- 2025/06/13 2.0.0发布
|
|
|
- - MinerU 2.0 是经过完全重构的全新版本,主要包含以下重大改进:
|
|
|
- - **全新架构**:MinerU 2.0 完全重构了代码架构,采用了更现代化的设计,大幅提升了易用性、可维护性和可扩展性。
|
|
|
- - 完全移除pymupdf库依赖,在开源协议友好之路上迈出了重要一步。
|
|
|
- - 支持开箱即用,无需额外配置(json文件),将绝大部分参数开放到命令行和API参数中,用户可通过命令行或API直接配置所需功能。
|
|
|
- - 支持模型的自动下载和更新,用户无需手动干预,模型管理更简单。
|
|
|
- - 离线部署更友好,内置模型下载命令,用户只需执行一次即可完成模型的下载和更新,支持离线部署。
|
|
|
- - 代码结构大幅优化,移除数千行冗余代码和复杂的类继承关系,简化了代码逻辑,提升了可读性和可维护性。
|
|
|
- - 一致的middle_json格式,兼容绝大部分基于middle_json格式的二次开发应用场景,支持生态业务无缝迁移。
|
|
|
- - **全新模型**:集成了最新自研多模态文档解析模型,支持端到端的高速、高精度文档解析。
|
|
|
- - MinerU 全新进化的多模态文档解析模型,不到1B的参数量,超越传统VLM模型72B的解析精度。
|
|
|
- - 令人难以置信的全能单模型,支持多语言识别、手写识别、layout分析、表格解析、公式解析、阅读顺序排序等功能。
|
|
|
- - 极致的解析速度,在单卡4090上超过 10000 token/s的峰值吞吐量(使用sglang加速),满足大规模文档解析需求。
|
|
|
- - **不兼容更新**:
|
|
|
- - 包名从`magic-pdf`更改为`mineru`,同时命令行工具从`magic-pdf`更改为`mineru`,用户需要更新相关脚本和命令行调用方式。
|
|
|
- - 移除了内置的libreoffice文档转换功能,用户需自行将office文档转换为pdf后再通过本项目解析。
|
|
|
+ - MinerU 2.0 是一次从架构到功能的全面重构与升级,带来了更简洁的设计、更强的性能以及更灵活的使用体验。
|
|
|
+ - **全新架构**:MinerU 2.0 在代码结构和交互方式上进行了深度重构,显著提升了系统的易用性、可维护性与扩展能力。
|
|
|
+ - **去除第三方依赖限制**:彻底移除对 `pymupdf` 的依赖,推动项目向更开放、合规的开源方向迈进。
|
|
|
+ - **开箱即用,配置便捷**:无需手动编辑 JSON 配置文件,绝大多数参数已支持命令行或 API 直接设置。
|
|
|
+ - **模型自动管理**:新增模型自动下载与更新机制,用户无需手动干预即可完成模型部署。
|
|
|
+ - **离线部署友好**:提供内置模型下载命令,支持完全断网环境下的部署需求。
|
|
|
+ - **代码结构精简**:移除数千行冗余代码,简化类继承逻辑,显著提升代码可读性与开发效率。
|
|
|
+ - **统一中间格式输出**:采用标准化的 `middle_json` 格式,兼容多数基于该格式的二次开发场景,确保生态业务无缝迁移。
|
|
|
+ - **全新模型**:MinerU 2.0 集成了我们最新研发的小参数量、高性能多模态文档解析模型,实现端到端的高速、高精度文档理解。
|
|
|
+ - **小模型,大能力**:模型参数不足 1B,却在解析精度上超越传统 72B 级别的视觉语言模型(VLM)。
|
|
|
+ - **多功能合一**:单模型覆盖多语言识别、手写识别、版面分析、表格解析、公式识别、阅读顺序排序等核心任务。
|
|
|
+ - **极致推理速度**:在单卡 NVIDIA 4090 上通过 `sglang` 加速,达到峰值吞吐量超过 10,000 token/s,轻松应对大规模文档处理需求。
|
|
|
+ - **不兼容变更说明**:为提升整体架构合理性与长期可维护性,本版本包含部分不兼容的变更:
|
|
|
+ - Python 包名从 `magic-pdf` 更改为 `mineru`,命令行工具也由 `magic-pdf` 改为 `mineru`,请同步更新脚本与调用命令。
|
|
|
+ - 出于对系统模块化设计与生态一致性的考虑,MinerU 2.0 已不再内置 LibreOffice 文档转换模块。如需处理 Office 文档,建议通过独立部署的 LibreOffice 服务先行转换为 PDF 格式,再进行后续解析操作。
|
|
|
|
|
|
|
|
|
<details>
|