|
|
@@ -0,0 +1,60 @@
|
|
|
+# 年报知识图谱生成工具
|
|
|
+
|
|
|
+这个工具可以将年报PDF转换为结构化数据,并生成知识图谱。
|
|
|
+
|
|
|
+## 功能特性
|
|
|
+
|
|
|
+1. 使用MinerU处理PDF文件,提取文本、表格、图像等内容
|
|
|
+2. 生成结构化的JSON数据
|
|
|
+3. 从结构化数据中提取实体和关系
|
|
|
+4. 构建知识图谱并保存为JSON格式
|
|
|
+
|
|
|
+## 使用方法
|
|
|
+
|
|
|
+### 1. 安装依赖
|
|
|
+
|
|
|
+```bash
|
|
|
+# 进入项目根目录
|
|
|
+cd /Users/zhch158/workspace/repository.git/MinerU
|
|
|
+
|
|
|
+# 安装MinerU及其依赖
|
|
|
+pip install -e .
|
|
|
+pip install "mineru[core]"
|
|
|
+```
|
|
|
+
|
|
|
+### 2. 处理年报PDF
|
|
|
+
|
|
|
+```bash
|
|
|
+# 使用pipeline模式处理(推荐)
|
|
|
+python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend pipeline
|
|
|
+
|
|
|
+# 或者使用VLM模式处理
|
|
|
+python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend vlm-transformers
|
|
|
+```
|
|
|
+
|
|
|
+### 3. 生成知识图谱
|
|
|
+
|
|
|
+```bash
|
|
|
+# 运行完整的处理脚本
|
|
|
+python zhch/process_annual_report_complete.py
|
|
|
+```
|
|
|
+
|
|
|
+## 输出文件
|
|
|
+
|
|
|
+处理完成后,输出文件将保存在 `output/600916_中国黄金_2022年报/` 目录下:
|
|
|
+
|
|
|
+- `*.md` - Markdown格式的文档内容
|
|
|
+- `*_content_list.json` - 结构化的文档内容列表
|
|
|
+- `*_knowledge_graph.json` - 生成的知识图谱
|
|
|
+
|
|
|
+## 文件说明
|
|
|
+
|
|
|
+- `annual_report_kg_solution.md` - 知识图谱生成方案的详细设计文档
|
|
|
+- `process_annual_report.py` - 监控处理进度并生成知识图谱的脚本
|
|
|
+- `process_annual_report_complete.py` - 完整的处理流程脚本
|
|
|
+
|
|
|
+## 注意事项
|
|
|
+
|
|
|
+1. 处理几百页的年报PDF可能需要较长时间(几十分钟到几小时)
|
|
|
+2. 首次运行时需要下载模型文件,请确保网络连接正常
|
|
|
+3. 处理大文件时请确保有足够的内存和磁盘空间
|