|
@@ -34,7 +34,7 @@
|
|
|
|
|
|
|
|
# 更新记录
|
|
# 更新记录
|
|
|
|
|
|
|
|
-- 2024/07/18 首次开源
|
|
|
|
|
|
|
+- 2024/07/08 首次开源
|
|
|
|
|
|
|
|
|
|
|
|
|
<!-- TABLE OF CONTENT -->
|
|
<!-- TABLE OF CONTENT -->
|
|
@@ -107,7 +107,7 @@ https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c
|
|
|
- Linux/Windows + CUDA
|
|
- Linux/Windows + CUDA
|
|
|
|
|
|
|
|
|
|
|
|
|
-**软硬件环境支持说明**
|
|
|
|
|
|
|
+**⚠️安装前必看——软硬件环境支持说明**
|
|
|
|
|
|
|
|
为了确保项目的稳定性和可靠性,我们在开发过程中仅对特定的软硬件环境进行优化和测试。这样当用户在推荐的系统配置上部署和运行项目时,能够获得最佳的性能表现和最少的兼容性问题。
|
|
为了确保项目的稳定性和可靠性,我们在开发过程中仅对特定的软硬件环境进行优化和测试。这样当用户在推荐的系统配置上部署和运行项目时,能够获得最佳的性能表现和最少的兼容性问题。
|
|
|
|
|
|
|
@@ -194,7 +194,7 @@ pip install magic-pdf[full]==0.6.2b1 detectron2 --extra-index-url https://wheels
|
|
|
```bash
|
|
```bash
|
|
|
magic-pdf -p {some_pdf} -o {some_output_dir}
|
|
magic-pdf -p {some_pdf} -o {some_output_dir}
|
|
|
```
|
|
```
|
|
|
-
|
|
|
|
|
|
|
+其中 `{some_pdf}` 可以使单个pdf文件,也可以是一个包含多个pdf文件的目录。
|
|
|
运行完命令后输出的结果会保存在`{some_output_dir}`目录下, 输出的文件列表如下
|
|
运行完命令后输出的结果会保存在`{some_output_dir}`目录下, 输出的文件列表如下
|
|
|
|
|
|
|
|
```text
|
|
```text
|
|
@@ -262,6 +262,7 @@ TODO
|
|
|
- 阅读顺序基于规则的分割,在一些情况下会乱序
|
|
- 阅读顺序基于规则的分割,在一些情况下会乱序
|
|
|
- 列表、代码块、目录在layout模型里还没有支持
|
|
- 列表、代码块、目录在layout模型里还没有支持
|
|
|
- 漫画书、艺术图册、小学教材、习题尚不能很好解析
|
|
- 漫画书、艺术图册、小学教材、习题尚不能很好解析
|
|
|
|
|
+- 在一些公式密集的PDF上强制启用OCR效果会更好
|
|
|
|
|
|
|
|
好消息是,这些我们正在努力实现!
|
|
好消息是,这些我们正在努力实现!
|
|
|
|
|
|