## METEOR 详细解释

METEOR（Metric for Evaluation of Translation with Explicit ORdering）是一个用于评估机器翻译和文本生成质量的指标。

### METEOR 的工作原理

METEOR 通过以下步骤计算相似度分数：

1. **词汇匹配**：在候选文本和参考文本之间寻找匹配的词汇
   - 精确匹配：完全相同的词
   - 词干匹配：词的词根相同
   - 同义词匹配：使用 WordNet 等词典识别同义词

2. **对齐计算**：找到最佳的词汇对齐方式

3. **分数计算**：
   ```
   METEOR = (1 - α × 惩罚因子) × 调和平均值
   ```
   其中：
   - 调和平均值基于精确率和召回率
   - 惩罚因子考虑词序的重要性

### 在代码中的实现

从您的代码可以看到，METEOR 的使用方式：

````python
# ...existing code...
meteor = evaluate.load('meteor', keep_in_memory=True, experiment_id=random.randint(1,1e8))
meteor_results = meteor.compute(predictions=predictions, references=references)
result[group_name] = meteor_results['meteor']
# ...existing code...
````

**注意**：代码中存在一个错误，`predictions` 和 `references` 的赋值顺序颠倒了：

````python
# ...existing code...
for sample in samples:
    gt = sample['norm_gt'] if sample.get('norm_gt') else sample['gt']
    pred = sample['norm_pred'] if sample.get('norm_pred') else sample['pred']
    # 应该是：
    predictions.append(pred)  # 预测结果
    references.append(gt)     # 真实标签
# ...existing code...
````

### 使用场景

1. **机器翻译评估**
   - 评估翻译系统的输出质量
   - 比较不同翻译模型的性能

2. **文本摘要评估**
   - 评估自动摘要系统的效果
   - 衡量摘要的信息保留度

3. **OCR/文档识别评估**（如您的项目）
   - 评估光学字符识别的准确性
   - 衡量文档解析结果的质量

4. **问答系统评估**
   - 评估自动问答系统的回答质量
   - 比较生成答案与标准答案的相似度

### METEOR 的优势

- **语义理解**：考虑同义词和词干变化
- **词序敏感**：通过惩罚因子考虑词序重要性
- **平衡性好**：在精确率和召回率之间取得平衡
- **人类判断相关性高**：与人类评判结果相关性较强

### 与其他指标的比较

- **vs BLEU**：METEOR 更注重召回率，BLEU 更注重精确率
- **vs Edit Distance**：METEOR 考虑语义相似性，编辑距离只考虑字符差异
- **vs TEDS**：TEDS 专门用于表格结构评估，METEOR 用于通用文本评估

在您的文档识别项目中，METEOR 特别适合评估文本内容的识别准确性，能够容忍一些同义词替换和词序变化。