Selaa lähdekoodia

update readme

赵小蒙 1 vuosi sitten
vanhempi
commit
2154e7b9e6
1 muutettua tiedostoa jossa 31 lisäystä ja 1 poistoa
  1. 31 1
      README_zh-CN.md

+ 31 - 1
README_zh-CN.md

@@ -15,6 +15,13 @@
 
 </div>
 
+# MinerU 
+
+MinerU 是一款一站式开源数据提取工具,主要包含以下功能:
+
+- PDF文档提取  (Magic-PDF)
+- 网页与电子书提取  (Magic-Doc)
+
 # Magic-PDF
 
 ## 简介
@@ -49,7 +56,9 @@ https://github.com/magicpdf/Magic-PDF/assets/11393164/618937cb-dc6a-4646-b433-e3
 ### 子模块仓库
 
 - [pdf-extract-kit](https://github.com/wangbinDL/pdf-extract-kit)
-- [Miner-PDF-Benchmark](https://github.com/opendatalab/Miner-PDF-Benchmark)
+  
+- [Miner-PDF-Benchmark](https://github.com/opendatalab/Miner-PDF-Benchmark) 
+  端到端的PDF文档理解评估套件,专为大规模模型数据场景而设计。
 
 
 ## 上手指南
@@ -105,6 +114,27 @@ md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
 
 详细实现可参考 [demo.py](demo/demo.py)
 
+# Magic-Doc
+
+Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。
+
+主要功能包含
+ 
+- Web网页提取
+  - 跨模态精准解析图文、表格、公式信息
+
+- 电子书文献提取
+  - 支持 epub,mobi等多格式文献,文本图片全适配
+
+- 语言类型鉴定
+  - 支持176种语言的准确识别
+
+
+
+## 项目仓库
+
+- [Magic-Doc](https://github.com/magicpdf/Magic-Doc)
+
 ## 版权说明
 
 [LICENSE.md](LICENSE.md)