# 年报知识图谱生成工具 这个工具可以将年报PDF转换为结构化数据,并生成知识图谱。 ## 功能特性 1. 使用MinerU处理PDF文件,提取文本、表格、图像等内容 2. 生成结构化的JSON数据 3. 从结构化数据中提取实体和关系 4. 构建知识图谱并保存为JSON格式 ## 使用方法 ### 1. 安装依赖 ```bash # 进入项目根目录 cd /Users/zhch158/workspace/repository.git/MinerU # 安装MinerU及其依赖 pip install -e . pip install "mineru[core]" ``` ### 2. 处理年报PDF ```bash # 使用pipeline模式处理(推荐) python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend pipeline # 或者使用VLM模式处理 python -m mineru.cli.client -p zhch/600916_中国黄金_2022年报.pdf -o output --backend vlm-transformers ``` ### 3. 生成知识图谱 ```bash # 运行完整的处理脚本 python zhch/process_annual_report_complete.py ``` ## 输出文件 处理完成后,输出文件将保存在 `output/600916_中国黄金_2022年报/` 目录下: - `*.md` - Markdown格式的文档内容 - `*_content_list.json` - 结构化的文档内容列表 - `*_knowledge_graph.json` - 生成的知识图谱 ## 文件说明 - `annual_report_kg_solution.md` - 知识图谱生成方案的详细设计文档 - `process_annual_report.py` - 监控处理进度并生成知识图谱的脚本 - `process_annual_report_complete.py` - 完整的处理流程脚本 ## 注意事项 1. 处理几百页的年报PDF可能需要较长时间(几十分钟到几小时) 2. 首次运行时需要下载模型文件,请确保网络连接正常 3. 处理大文件时请确保有足够的内存和磁盘空间