Finance_report_extract.md 1.7 KB

年报知识图谱生成工具

这个工具可以将年报PDF转换为结构化数据,并生成知识图谱。

功能特性

  1. 使用MinerU处理PDF文件,提取文本、表格、图像等内容
  2. 生成结构化的JSON数据
  3. 从结构化数据中提取实体和关系
  4. 构建知识图谱并保存为JSON格式

使用方法

1. 安装依赖

# 进入项目根目录
cd /Users/zhch158/workspace/repository.git/MinerU

# 安装MinerU及其依赖
pip install -e .
pip install "mineru[core]"

2. 处理年报PDF

# 使用pipeline模式处理(推荐)
python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend pipeline

# 或者使用VLM模式处理
python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend vlm-transformers

3. 生成知识图谱

# 运行完整的处理脚本
python zhch/process_annual_report_complete.py

输出文件

处理完成后,输出文件将保存在 output/600916_中国黄金_2022年报/ 目录下:

  • *.md - Markdown格式的文档内容
  • *_content_list.json - 结构化的文档内容列表
  • *_knowledge_graph.json - 生成的知识图谱

文件说明

  • annual_report_kg_solution.md - 知识图谱生成方案的详细设计文档
  • process_annual_report.py - 监控处理进度并生成知识图谱的脚本
  • process_annual_report_complete.py - 完整的处理流程脚本

注意事项

  1. 处理几百页的年报PDF可能需要较长时间(几十分钟到几小时)
  2. 首次运行时需要下载模型文件,请确保网络连接正常
  3. 处理大文件时请确保有足够的内存和磁盘空间