Pārlūkot izejas kodu

新增年报知识图谱生成工具文档,包含功能特性、使用方法及注意事项

zhch158_admin 3 mēneši atpakaļ
vecāks
revīzija
cfc7f8d003
1 mainītis faili ar 60 papildinājumiem un 0 dzēšanām
  1. 60 0
      zhch/Finance_report_extract.md

+ 60 - 0
zhch/Finance_report_extract.md

@@ -0,0 +1,60 @@
+# 年报知识图谱生成工具
+
+这个工具可以将年报PDF转换为结构化数据,并生成知识图谱。
+
+## 功能特性
+
+1. 使用MinerU处理PDF文件,提取文本、表格、图像等内容
+2. 生成结构化的JSON数据
+3. 从结构化数据中提取实体和关系
+4. 构建知识图谱并保存为JSON格式
+
+## 使用方法
+
+### 1. 安装依赖
+
+```bash
+# 进入项目根目录
+cd /Users/zhch158/workspace/repository.git/MinerU
+
+# 安装MinerU及其依赖
+pip install -e .
+pip install "mineru[core]"
+```
+
+### 2. 处理年报PDF
+
+```bash
+# 使用pipeline模式处理(推荐)
+python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend pipeline
+
+# 或者使用VLM模式处理
+python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend vlm-transformers
+```
+
+### 3. 生成知识图谱
+
+```bash
+# 运行完整的处理脚本
+python zhch/process_annual_report_complete.py
+```
+
+## 输出文件
+
+处理完成后,输出文件将保存在 `output/600916_中国黄金_2022年报/` 目录下:
+
+- `*.md` - Markdown格式的文档内容
+- `*_content_list.json` - 结构化的文档内容列表
+- `*_knowledge_graph.json` - 生成的知识图谱
+
+## 文件说明
+
+- `annual_report_kg_solution.md` - 知识图谱生成方案的详细设计文档
+- `process_annual_report.py` - 监控处理进度并生成知识图谱的脚本
+- `process_annual_report_complete.py` - 完整的处理流程脚本
+
+## 注意事项
+
+1. 处理几百页的年报PDF可能需要较长时间(几十分钟到几小时)
+2. 首次运行时需要下载模型文件,请确保网络连接正常
+3. 处理大文件时请确保有足够的内存和磁盘空间