https://github.com/opendatalab/MinerU.git
|
|
преди 1 година | |
|---|---|---|
| .github | преди 1 година | |
| app | преди 1 година | |
| demo | преди 1 година | |
| dict2md | преди 1 година | |
| filter | преди 1 година | |
| layout | преди 1 година | |
| libs | преди 1 година | |
| para | преди 1 година | |
| pipeline | преди 1 година | |
| post_proc | преди 1 година | |
| pre_proc | преди 1 година | |
| test | преди 1 година | |
| .gitignore | преди 1 година | |
| README.md | преди 1 година | |
| check_inline_formula.py | преди 1 година | |
| pdf2json_infer.py | преди 1 година | |
| pdf2text_evaluatePdfLayout.py | преди 1 година | |
| pdf2text_getNumberOfColumn.py | преди 1 година | |
| pdf2text_recogFootnoteLine.py | преди 1 година | |
| pdf2text_recogHeader.py | преди 1 година | |
| pdf2text_recogPageNo.py | преди 1 година | |
| pdf2text_recogPara.py | преди 1 година | |
| pdf2text_recogPara_v2.py | преди 1 година | |
| pdf2text_recogTable.py | преди 1 година | |
| pdf2text_recogTitle.py | преди 1 година | |
| requirements.txt | преди 1 година | |
| setup.py | преди 1 година | |
| vali_bbox_sort.py | преди 1 година | |
| validation.py | преди 1 година |
pdf 解析基础函数
cat s3_pdf_path.example.pdf | parallel --colsep ' ' -j 10 "python pdf_meta_scan.py --s3-pdf-path {2} --s3-profile {1} >> {/}.jsonl"
find dir/to/jsonl/ -type f -name "*.jsonl" | parallel -j 10 "python pdf_classfy_by_type.py --json_file {} >> {/}.jsonl"
# 如果单独运行脚本,合并到code-clean之后需要运行,参考如下:
python -m pdf_meta_scan --s3-pdf-path "D:\pdf_files\内容排序测试_pdf\p3_图文混排 5.pdf" --s3-profile s2