https://github.com/opendatalab/MinerU.git

赵小蒙 7228545841 更新版本号 1 年之前
.github be265ff7fa 更新工作流配置,只对released结尾的tag进行处理 1 年之前
app 789918dffb 重构目录结构 1 年之前
demo d5dbed7325 目录重构 1 年之前
magic_pdf d5dbed7325 目录重构 1 年之前
othoers d5dbed7325 目录重构 1 年之前
tests d5dbed7325 目录重构 1 年之前
.gitignore f99149b8dd 重构目录结构 1 年之前
README.md c2e5c36f79 Initial commit 1 年之前
requirements.txt 33e2922ae6 更新依赖包配置和打包配置 1 年之前
setup.py 7228545841 更新版本号 1 年之前

README.md

pdf_toolbox

pdf 解析基础函数

pdf是否是文字类型/扫描类型的区分

cat s3_pdf_path.example.pdf | parallel --colsep ' ' -j 10 "python pdf_meta_scan.py --s3-pdf-path {2} --s3-profile {1} >> {/}.jsonl"

find dir/to/jsonl/ -type f -name "*.jsonl" | parallel -j 10 "python pdf_classfy_by_type.py --json_file {} >> {/}.jsonl"

# 如果单独运行脚本,合并到code-clean之后需要运行,参考如下:
python -m pdf_meta_scan --s3-pdf-path "D:\pdf_files\内容排序测试_pdf\p3_图文混排 5.pdf" --s3-profile s2

pdf