# 年报PDF知识图谱生成方案

## 1. 系统架构

```
年报PDF → MinerU → 结构化数据 → 知识图谱
```

## 2. 处理步骤

### 2.1. 数据提取阶段
- 使用MinerU工具包处理PDF文件
- 提取文本、表格、图像等内容
- 生成结构化的JSON数据

### 2.2. 知识抽取阶段
- 从结构化数据中提取实体
- 识别实体间的关系
- 构建初步的知识图谱

### 2.3. 知识融合阶段
- 对实体进行聚类和消歧
- 补充实体属性信息
- 完善关系网络

## 3. 实体类型定义

### 3.1. 核心实体
- **公司**: 年报主体公司
- **章节**: 年报各部分内容
- **财务指标**: 关键财务数据
- **业务板块**: 公司主要业务领域
- **管理层**: 公司高管人员
- **时间节点**: 年度、季度等时间信息

### 3.2. 辅助实体
- **表格**: 财务数据表格
- **图像**: 图表、照片等
- **公式**: 数学公式和计算方法

## 4. 关系类型定义

### 4.1. 结构关系
- HAS_SECTION: 公司包含章节
- HAS_TABLE: 章节包含表格
- HAS_IMAGE: 章节包含图像

### 4.2. 业务关系
- BELONGS_TO: 业务板块属于公司
- REPORTS: 公司报告财务指标
- MANAGES: 管理层管理公司

## 5. 技术实现

### 5.1. 数据处理流程
```python
# 伪代码
def process_annual_report(pdf_path):
    # 1. 使用MinerU处理PDF
    structured_data = mineru.process(pdf_path)
    
    # 2. 提取实体和关系
    entities, relations = extract_knowledge(structured_data)
    
    # 3. 构建知识图谱
    knowledge_graph = build_kg(entities, relations)
    
    return knowledge_graph
```

### 5.2. 实体识别
- 使用规则匹配识别财务指标
- 使用命名实体识别识别公司名、人名等
- 使用模板匹配识别时间信息

### 5.3. 关系抽取
- 基于位置关系抽取（如表格在某个章节中）
- 基于语义关系抽取（如"营业收入"属于"财务数据"）
- 基于格式关系抽取（如粗体文字可能是标题）

## 6. 输出格式

### 6.1. 知识图谱JSON格式
```json
{
  "entities": [
    {
      "id": "entity_1",
      "type": "company",
      "name": "中国黄金",
      "properties": {
        "stock_code": "600916",
        "industry": "有色金属"
      }
    }
  ],
  "relations": [
    {
      "source": "entity_1",
      "target": "entity_2",
      "type": "reports",
      "properties": {
        "year": "2022",
        "value": "1000000000"
      }
    }
  ]
}
```

### 6.2. 可视化格式
- 支持Graphviz DOT格式
- 支持GML格式
- 支持CSV格式（节点和边分别存储）

## 7. 性能优化

### 7.1. 并行处理
- 多进程处理不同页面
- GPU加速模型推理

### 7.2. 缓存机制
- 缓存已处理的页面结果
- 增量更新知识图谱

## 8. 部署方案

### 8.1. 本地部署
- Docker容器化部署
- 支持Mac、Linux、Windows系统

### 8.2. 云部署
- 支持阿里云、腾讯云等云平台
- 支持Kubernetes集群部署

## 9. 扩展功能

### 9.1. 多语言支持
- 支持中英文年报处理
- 支持其他语言的适配

### 9.2. 多格式输入
- 支持PDF、Word、HTML等格式
- 支持扫描版PDF的OCR处理

### 9.3. 智能分析
- 自动生成年报摘要
- 财务数据趋势分析
- 异常数据检测