这个工具可以将年报PDF转换为结构化数据,并生成知识图谱。
# 进入项目根目录
cd /Users/zhch158/workspace/repository.git/MinerU
# 安装MinerU及其依赖
pip install -e .
pip install "mineru[core]"
# 使用pipeline模式处理(推荐)
python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend pipeline
# 或者使用VLM模式处理
python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend vlm-transformers
# 运行完整的处理脚本
python zhch/process_annual_report_complete.py
处理完成后,输出文件将保存在 output/600916_中国黄金_2022年报/ 目录下:
*.md - Markdown格式的文档内容*_content_list.json - 结构化的文档内容列表*_knowledge_graph.json - 生成的知识图谱annual_report_kg_solution.md - 知识图谱生成方案的详细设计文档process_annual_report.py - 监控处理进度并生成知识图谱的脚本process_annual_report_complete.py - 完整的处理流程脚本