|
@@ -175,7 +175,7 @@ https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c
|
|
|
### 使用CPU快速体验
|
|
### 使用CPU快速体验
|
|
|
|
|
|
|
|
#### 1. 安装magic-pdf
|
|
#### 1. 安装magic-pdf
|
|
|
-
|
|
|
|
|
|
|
+最新版本国内镜像源同步可能会有延迟,请耐心等待
|
|
|
```bash
|
|
```bash
|
|
|
conda create -n MinerU python=3.10
|
|
conda create -n MinerU python=3.10
|
|
|
conda activate MinerU
|
|
conda activate MinerU
|
|
@@ -321,7 +321,14 @@ TODO
|
|
|
- 漫画书、艺术图册、小学教材、习题尚不能很好解析
|
|
- 漫画书、艺术图册、小学教材、习题尚不能很好解析
|
|
|
- 在一些公式密集的PDF上强制启用OCR效果会更好
|
|
- 在一些公式密集的PDF上强制启用OCR效果会更好
|
|
|
- 如果您要处理包含大量公式的pdf,强烈建议开启OCR功能。使用pymuPDF提取文字的时候会出现文本行互相重叠的情况导致公式插入位置不准确。
|
|
- 如果您要处理包含大量公式的pdf,强烈建议开启OCR功能。使用pymuPDF提取文字的时候会出现文本行互相重叠的情况导致公式插入位置不准确。
|
|
|
-- 表格识别目前处于测试阶段识别速度较慢,识别准确度有待提升
|
|
|
|
|
|
|
+- **表格识别**目前处于测试阶段,识别速度较慢,识别准确度有待提升。以下是我们在Ubuntu 22.04 LTS + NVIDIA GeForce RTX 4090环境下的一些性能测试结果,可供参考。
|
|
|
|
|
+
|
|
|
|
|
+| 表格大小 | 解析耗时 |
|
|
|
|
|
+|---------------|----------------------------|
|
|
|
|
|
+| 6\*5 55kb | 37s |
|
|
|
|
|
+| 16\*12 284kb | 3m18s |
|
|
|
|
|
+| 44\*7 559kb | 4m12s |
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
|
|
# FAQ
|
|
# FAQ
|