zhch158_admin eae609a851 feat: 新增工具模块,包含CUDA环境检测、文件处理、文档处理及金融数字标准化功能 1 місяць тому
..
sample_data 3572efbf95 feat: 删除旧的PDF文件并添加新的示例数据文件 2 місяців тому
utils eae609a851 feat: 新增工具模块,包含CUDA环境检测、文件处理、文档处理及金融数字标准化功能 1 місяць тому
Finance_report_extract.md cfc7f8d003 新增年报知识图谱生成工具文档,包含功能特性、使用方法及注意事项 3 місяців тому
README.md 3aa8739d11 feat: 更新README.md,新增vllm server启动指令及流水分析示例 1 місяць тому
annual_report_kg_solution.md e57ddf2bf3 新增年报PDF知识图谱生成方案文档和MinerU流水线执行流程图 3 місяців тому
demo.py 4657b81cee feat: 新增PDF解析功能,支持多种输出格式和后端选择 2 місяців тому
demo_zhch_v1.py 4b63f964fe feat: 新增demo_zhch_v1.py文件,包含PDF处理和Markdown生成逻辑 2 місяців тому
download_models.py 6df07a7baf 学习MinerU 11 місяців тому
html_zhch.py c327bab1b0 对pandas.io.html的修改 11 місяців тому
magic-pdf-0.json 732de336c0 layoutlmv3 11 місяців тому
magic-pdf.json 5cba8285cd doclayout_yolo 11 місяців тому
magic_pdf_parse_main_zhch.py bf42036dcd 加入对html的后处理 11 місяців тому
mineru.json b004dcc3ec feat: 新增MinerU配置文件mineru.json,包含存储桶信息、LaTeX分隔符配置和模型目录 2 місяців тому
mineru_pipeline.md e57ddf2bf3 新增年报PDF知识图谱生成方案文档和MinerU流水线执行流程图 3 місяців тому
mineru_pipeline_flow.md e57ddf2bf3 新增年报PDF知识图谱生成方案文档和MinerU流水线执行流程图 3 місяців тому
mineru_vllm_daemon.sh a51c722b5e feat: 在MinerU vLLM守护进程脚本中新增served-model-name参数 1 місяць тому

README.md

1. 环境

git clone https://gitee.com/zhch158_admin/MinerU.git -c user.name=zhch158_admin -c user.email=zhch158@sina.com

git config --local user.name "zhch158_admin"
git config --local user.email "zhch158@sina.com"

1.2 python 安装依赖包

conda create -n mineru2 python=3.12
conda activate mineru2
pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

# 查看PyTorch版本
python -c "import torch; print(torch.__version__)"

# 应该用不着安装
# uv pip install flash-attn==2.8.3 --find-links https://github.com/Dao-AILab/flash-attention/releases

uv pip install -U -e '.[all]'

1.3 modelscope 下载模型

# 从modelscope下载模型权重文件, 模型会在$MODELSCOPE_CACHE
python -m mineru.cli.models_download

# .env中加入model配置
MINERU_TOOLS_CONFIG_JSON="/home/dev/zhch/src/MinerU/mineru.json"

.env

NLTK_DATA="/home/ubuntu/nltk_data"
HF_HOME="/home/ubuntu/models/hf_home"
HF_ENDPOINT=https://hf-mirror.com
HF_HUB_OFFLINE=0
TORCH_HOME="/home/ubuntu/models/torch/"
MODELSCOPE_CACHE="/home/ubuntu/models/modelscope_cache"
USE_MODELSCOPE_HUB=1
CUDA_VISIBLE_DEVICES=0,1,2,3

启动vllm server

CUDA_VISIBLE_DEVICES="0"; mineru-vllm-server --port 8121 --gpu-memory-utilization 0.3

命令行运行评估集

export MINERU_TOOLS_CONFIG_JSON="/home/ubuntu/zhch/MinerU/mineru.json"
python -m mineru.cli.client -p /home/ubuntu/zhch/OmniDocBench/OpenDataLab___OmniDocBench/images -o /home/ubuntu/zhch/MinerU/zhch/OmniDocBench_MinerU-pipeline-2.1.1_Results --lang ch --source modelscope

流水分析

export MINERU_TOOLS_CONFIG_JSON="/home/ubuntu/zhch/MinerU/mineru.json"
python -m mineru.cli.client -p /home/ubuntu/zhch/data/流水分析/A用户_单元格扫描流水.img -o /home/ubuntu/zhch/data/流水分析/A用户_单元格扫描流水/mineru-pipleline-2.5.3_Results --lang ch --source modelscope
python -m mineru.cli.client -p /home/ubuntu/zhch/data/流水分析/B用户_扫描流水.img -o /home/ubuntu/zhch/data/流水分析/B用户_扫描流水/mineru-pipleline-2.5.3_Results --lang ch --source modelscope
CUDA_VISIBLE_DEVICES=3 python -m mineru.cli.client -p /home/ubuntu/zhch/data/流水分析/B用户_扫描流水.img -o /home/ubuntu/zhch/data/流水分析/B用户_扫描流水/mineru-vlm-2.5.3_Results --backend vlm-vllm-engine --gpu-memory-utilization 0.3 --source modelscope

export MINERU_TOOLS_CONFIG_JSON="/home/ubuntu/zhch/MinerU/mineru.json"
python -m mineru.cli.client -p /home/ubuntu/zhch/data/至远彩色印刷工业有限公司/2023年度报告母公司.img -o /home/ubuntu/zhch/data/至远彩色印刷工业有限公司/2023年度报告母公司/mineru-pipleline-2.5.3_Results --lang ch --source modelscope

export MINERU_TOOLS_CONFIG_JSON="/home/ubuntu/zhch/MinerU/mineru.json"
CUDA_VISIBLE_DEVICES=3 python -m mineru.cli.client -p /home/ubuntu/zhch/data/至远彩色印刷工业有限公司/2023年度报告母公司.img -o /home/ubuntu/zhch/data/至远彩色印刷工业有限公司/2023年度报告母公司/mineru-vlm-2.5.3_Results --backend vlm-vllm-engine --gpu-memory-utilization 0.3 --source modelscope

# mac vlm-transformers
export MINERU_TOOLS_CONFIG_JSON="/Users/zhch158/workspace/repository.git/MinerU/zhch/mineru.json"
python -m mineru.cli.client -p /Users/zhch158/workspace/data/流水分析/B用户_扫描流水.1/data_PPStructureV3_Results/B用户_扫描流水/B用户_扫描流水_page_002.png -o /Users/zhch158/workspace/data/流水分析/B用户_扫描流水.1/mineru-vlm-2.5.3_Results --backend vlm-transformers --source modelscope
# mac vlm-vllm-engine
export MINERU_TOOLS_CONFIG_JSON="/Users/zhch158/workspace/repository.git/MinerU/zhch/mineru.json"
python -m mineru.cli.client -p /Users/zhch158/workspace/data/流水分析/B用户_扫描流水.1/data_PPStructureV3_Results/B用户_扫描流水/B用户_扫描流水_page_002.png -o /Users/zhch158/workspace/data/流水分析/B用户_扫描流水.1/mineru-vlm-2.5.3_Results --backend vlm-vllm-engine --max-num-batched-tokens 16384 --source modelscope