пре 2 недеља · b2a2cac32e
--- a/README.md
+++ b/README.md
@@ -620,41 +620,70 @@ A WebUI developed based on Gradio, with a simple interface and only core parsing
 
				 > In non-mainline environments, due to the diversity of hardware and software configurations, as well as third-party dependency compatibility issues, we cannot guarantee 100% project availability. Therefore, for users who wish to use this project in non-recommended environments, we suggest carefully reading the documentation and FAQ first. Most issues already have corresponding solutions in the FAQ. We also encourage community feedback to help us gradually expand support.
			
 
				 
			
 
				 <table>
			
 
				-    <tr>
			
 
				-        <td>Parsing Backend</td>
			
 
				-        <td>pipeline</td>
			
 
				-        <td>vlm-transformers</td>
			
 
				-        <td>vlm-vllm</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>Operating System</td>
			
 
				-        <td>Linux / Windows / macOS</td>
			
 
				-        <td>Linux / Windows</td>
			
 
				-        <td>Linux / Windows (via WSL2)</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>CPU Inference Support</td>
			
 
				-        <td>✅</td>
			
 
				-        <td colspan="2">❌</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>GPU Requirements</td>
			
 
				-        <td>Turing architecture and later, 6GB+ VRAM or Apple Silicon</td>
			
 
				-        <td colspan="2">Turing architecture and later, 8GB+ VRAM</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>Memory Requirements</td>
			
 
				-        <td colspan="3">Minimum 16GB+, recommended 32GB+</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>Disk Space Requirements</td>
			
 
				-        <td colspan="3">20GB+, SSD recommended</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>Python Version</td>
			
 
				-        <td colspan="3">3.10-3.13</td>
			
 
				-    </tr>
			
 
				+    <thead>
			
 
				+        <tr>
			
 
				+            <th rowspan="2">Parsing Backend</th>
			
 
				+            <th rowspan="2">pipeline <br> (Accuracy<sup>1</sup> 82+)</th>
			
 
				+            <th colspan="4">vlm (Accuracy<sup>1</sup> 90+)</th>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>transformers</th>
			
 
				+            <th>mlx-engine</th>
			
 
				+            <th>vllm-engine / <br>vllm-async-engine</th>
			
 
				+            <th>http-client</th>
			
 
				+        </tr>
			
 
				+    </thead>
			
 
				+    <tbody>
			
 
				+        <tr>
			
 
				+            <th>Backend Features</th>
			
 
				+            <td>Fast, no hallucinations</td>
			
 
				+            <td>Good compatibility, <br>but slower</td>
			
 
				+            <td>Faster than transformers</td>
			
 
				+            <td>Fast, compatible with the vLLM ecosystem</td>
			
 
				+            <td>No configuration required, suitable for OpenAI-compatible servers<sup>5</sup></td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>Operating System</th>
			
 
				+            <td colspan="2" style="text-align:center;">Linux<sup>2</sup> / Windows / macOS</td>
			
 
				+            <td style="text-align:center;">macOS<sup>3</sup></td>
			
 
				+            <td style="text-align:center;">Linux<sup>2</sup> / Windows<sup>4</sup> </td>
			
 
				+            <td>Any</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>CPU inference support</th>
			
 
				+            <td colspan="2" style="text-align:center;">✅</td>
			
 
				+            <td colspan="2" style="text-align:center;">❌</td>
			
 
				+            <td>Not required</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>GPU Requirements</th><td colspan="2" style="text-align:center;">Volta or later architectures, 6 GB VRAM or more, or Apple Silicon</td>
			
 
				+            <td>Apple Silicon</td>
			
 
				+            <td>Volta or later architectures, 8 GB VRAM or more</td>
			
 
				+            <td>Not required</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>Memory Requirements</th>
			
 
				+            <td colspan="4" style="text-align:center;">Minimum 16 GB, 32 GB recommended</td>
			
 
				+            <td>8 GB</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>Disk Space Requirements</th>
			
 
				+            <td colspan="4" style="text-align:center;">20 GB or more, SSD recommended</td>
			
 
				+            <td>2 GB</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>Python Version</th>
			
 
				+            <td colspan="5" style="text-align:center;">3.10-3.13</td>
			
 
				+        </tr>
			
 
				+    </tbody>
			
 
				 </table>
			
 
				+ 
			
 
				+<sup>1</sup> Accuracy metric is the End-to-End Evaluation Overall score of OmniDocBench (v1.5)  
			
 
				+<sup>2</sup> Linux supports only distributions released in 2019 or later  
			
 
				+<sup>3</sup> Requires macOS 13.5 or later  
			
 
				+<sup>4</sup> Windows vLLM support via WSL2  
			
 
				+<sup>5</sup> Servers compatible with the OpenAI API, such as `vLLM`/`SGLang`/`LMDeploy`, etc.
			
 
				+
			
 
				 
			
 
				 ### Install MinerU
			
 
				 
			
--- a/README_zh-CN.md
+++ b/README_zh-CN.md
@@ -605,42 +605,75 @@ https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c
 
				 >
			
 
				 > 在非主线环境中，由于硬件、软件配置的多样性，以及第三方依赖项的兼容性问题，我们无法100%保证项目的完全可用性。因此，对于希望在非推荐环境中使用本项目的用户，我们建议先仔细阅读文档以及FAQ，大多数问题已经在FAQ中有对应的解决方案，除此之外我们鼓励社区反馈问题，以便我们能够逐步扩大支持范围。
			
 
				 
			
 
				+
			
 
				 <table>
			
 
				-    <tr>
			
 
				-        <td>解析后端</td>
			
 
				-        <td>pipeline</td>
			
 
				-        <td>vlm-transformers</td>
			
 
				-        <td>vlm-vllm</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>操作系统</td>
			
 
				-        <td>Linux / Windows / macOS</td>
			
 
				-        <td>Linux / Windows</td>
			
 
				-        <td>Linux / Windows (via WSL2)</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>CPU推理支持</td>
			
 
				-        <td>✅</td>
			
 
				-        <td colspan="2">❌</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>GPU要求</td>
			
 
				-        <td>Turing及以后架构，6G显存以上或Apple Silicon</td>
			
 
				-        <td colspan="2">Turing及以后架构，8G显存以上</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>内存要求</td>
			
 
				-        <td colspan="3">最低16G以上，推荐32G以上</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>磁盘空间要求</td>
			
 
				-        <td colspan="3">20G以上，推荐使用SSD</td>
			
 
				-    </tr>
			
 
				-    <tr>
			
 
				-        <td>python版本</td>
			
 
				-        <td colspan="3">3.10-3.13</td>
			
 
				-    </tr>
			
 
				-</table>
			
 
				+    <thead>
			
 
				+        <tr>
			
 
				+            <th rowspan="2">解析后端</th>
			
 
				+            <th rowspan="2">pipeline <br> (精度<sup>1</sup> 82+)</th>
			
 
				+            <th colspan="4">vlm (精度<sup>1</sup> 90+)</th>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>transformers</th>
			
 
				+            <th>mlx-engine</th>
			
 
				+            <th>vllm-engine / <br>vllm-async-engine</th>
			
 
				+            <th>http-client</th>
			
 
				+        </tr>
			
 
				+    </thead>
			
 
				+    <tbody>
			
 
				+        <tr>
			
 
				+            <th>后端特性</th>
			
 
				+            <td>速度快, 无幻觉</td>
			
 
				+            <td>兼容性好, 速度较慢</td>
			
 
				+            <td>比transformers快</td>
			
 
				+            <td>速度快, 兼容vllm生态</td>
			
 
				+            <td>无配置要求, 适用于OpenAI兼容服务器<sup>5</sup></td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>操作系统</th>
			
 
				+            <td colspan="2" style="text-align:center;">Linux<sup>2</sup> / Windows / macOS</td>
			
 
				+            <td style="text-align:center;">macOS<sup>3</sup></td>
			
 
				+            <td style="text-align:center;">Linux<sup>2</sup> / Windows<sup>4</sup> </td>
			
 
				+            <td>不限</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>CPU推理支持</th>
			
 
				+            <td colspan="2" style="text-align:center;">✅</td>
			
 
				+            <td colspan="2" style="text-align:center;">❌</td>
			
 
				+            <td >不需要</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>GPU要求</th><td colspan="2" style="text-align:center;">Volta及以后架构, 6G显存以上或Apple Silicon</td>
			
 
				+            <td>Apple Silicon</td>
			
 
				+            <td>Volta及以后架构, 8G显存以上</td>
			
 
				+            <td>不需要</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>内存要求</th>
			
 
				+            <td colspan="4" style="text-align:center;">最低16GB以上, 推荐32GB以上</td>
			
 
				+            <td>8GB</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>磁盘空间要求</th>
			
 
				+            <td colspan="4" style="text-align:center;">20GB以上, 推荐使用SSD</td>
			
 
				+            <td>2GB</td>
			
 
				+        </tr>
			
 
				+        <tr>
			
 
				+            <th>python版本</th>
			
 
				+            <td colspan="5" style="text-align:center;">3.10-3.13</td>
			
 
				+        </tr>
			
 
				+    </tbody>
			
 
				+</table> 
			
 
				+
			
 
				+<sup>1</sup> 精度指标为OmniDocBench (v1.5)的End-to-End Evaluation Overall分数  
			
 
				+<sup>2</sup> Linux仅支持2019年及以后发行版  
			
 
				+<sup>3</sup> 需macOS 13.5及以上版本  
			
 
				+<sup>4</sup> 通过WSL2实现Windows vLLM支持  
			
 
				+<sup>5</sup> 兼容OpenAI API的服务器，如`vLLM`/`SGLang`/`LMDeploy`等
			
 
				+
			
 
				+> [!TIP]
			
 
				+> 除以上主流环境与平台外，我们也收录了一些社区用户反馈的其他平台支持情况，详情请参考[其他加速卡适配](https://opendatalab.github.io/MinerU/zh/usage/)。  
			
 
				+> 如果您有意将自己的环境适配经验分享给社区，欢迎通过[show-and-tell](https://github.com/opendatalab/MinerU/discussions/categories/show-and-tell)提交或提交PR至[其他加速卡适配](https://github.com/opendatalab/MinerU/tree/master/docs/zh/usage/acceleration_cards)文档。
			
 
				 
			
 
				 ### 安装 MinerU
			
 
				 
			
--- a/mineru/cli/models_download.py
+++ b/mineru/cli/models_download.py
@@ -21,7 +21,7 @@ def download_and_modify_json(url, local_filename, modifications):
 
				     if os.path.exists(local_filename):
			
 
				         data = json.load(open(local_filename))
			
 
				         config_version = data.get('config_version', '0.0.0')
			
 
				-        if config_version < '1.3.0':
			
 
				+        if config_version < '1.3.1':
			
 
				             data = download_json(url)
			
 
				     else:
			
 
				         data = download_json(url)
			
--- a/mineru/utils/block_sort.py
+++ b/mineru/utils/block_sort.py
@@ -179,13 +179,14 @@ def insert_lines_into_block(block_bbox, line_height, page_w, page_h):
 
				 def model_init(model_name: str):
			
 
				     from transformers import LayoutLMv3ForTokenClassification
			
 
				     device_name = get_device()
			
 
				+    device = torch.device(device_name)
			
 
				     bf_16_support = False
			
 
				     if device_name.startswith("cuda"):
			
 
				-        bf_16_support = torch.cuda.is_bf16_supported()
			
 
				+        if torch.cuda.get_device_properties(device).major >= 8:
			
 
				+            bf_16_support = True
			
 
				     elif device_name.startswith("mps"):
			
 
				         bf_16_support = True
			
 
				 
			
 
				-    device = torch.device(device_name)
			
 
				     if model_name == 'layoutreader':
			
 
				         # 检测modelscope的缓存目录是否存在
			
 
				         layoutreader_model_dir = os.path.join(auto_download_and_get_model_root_path(ModelPath.layout_reader), ModelPath.layout_reader)