https://github.com/opendatalab/MinerU.git

xuchao a74ea08ca1 add .gitignore 1 жил өмнө
.github 6f5111cced Update python-package.yml 1 жил өмнө
app 789918dffb 重构目录结构 1 жил өмнө
demo 11e4e8cc59 重构目录结构 1 жил өмнө
dict2md 11e4e8cc59 重构目录结构 1 жил өмнө
filter c2e5c36f79 Initial commit 1 жил өмнө
layout 3ed288b60c 更新依赖 1 жил өмнө
libs 3ed288b60c 更新依赖 1 жил өмнө
para c2e5c36f79 Initial commit 1 жил өмнө
pipeline 11e4e8cc59 重构目录结构 1 жил өмнө
post_proc 11e4e8cc59 重构目录结构 1 жил өмнө
pre_proc 11e4e8cc59 重构目录结构 1 жил өмнө
test 789918dffb 重构目录结构 1 жил өмнө
.gitignore a74ea08ca1 add .gitignore 1 жил өмнө
README.md c2e5c36f79 Initial commit 1 жил өмнө
check_inline_formula.py c2e5c36f79 Initial commit 1 жил өмнө
pdf2json_infer.py 11e4e8cc59 重构目录结构 1 жил өмнө
pdf2text_evaluatePdfLayout.py c2e5c36f79 Initial commit 1 жил өмнө
pdf2text_getNumberOfColumn.py c2e5c36f79 Initial commit 1 жил өмнө
pdf2text_recogFootnoteLine.py c2e5c36f79 Initial commit 1 жил өмнө
pdf2text_recogHeader.py c2e5c36f79 Initial commit 1 жил өмнө
pdf2text_recogPageNo.py c2e5c36f79 Initial commit 1 жил өмнө
pdf2text_recogPara.py c2e5c36f79 Initial commit 1 жил өмнө
pdf2text_recogPara_v2.py c2e5c36f79 Initial commit 1 жил өмнө
pdf2text_recogTable.py c2e5c36f79 Initial commit 1 жил өмнө
pdf2text_recogTitle.py c2e5c36f79 Initial commit 1 жил өмнө
requirements.txt 3ed288b60c 更新依赖 1 жил өмнө
setup.py 9e7f7550de 配置打包参数 1 жил өмнө
vali_bbox_sort.py c2e5c36f79 Initial commit 1 жил өмнө
validation.py c2e5c36f79 Initial commit 1 жил өмнө

README.md

pdf_toolbox

pdf 解析基础函数

pdf是否是文字类型/扫描类型的区分

cat s3_pdf_path.example.pdf | parallel --colsep ' ' -j 10 "python pdf_meta_scan.py --s3-pdf-path {2} --s3-profile {1} >> {/}.jsonl"

find dir/to/jsonl/ -type f -name "*.jsonl" | parallel -j 10 "python pdf_classfy_by_type.py --json_file {} >> {/}.jsonl"

# 如果单独运行脚本,合并到code-clean之后需要运行,参考如下:
python -m pdf_meta_scan --s3-pdf-path "D:\pdf_files\内容排序测试_pdf\p3_图文混排 5.pdf" --s3-profile s2

pdf