zhengchun/PaddleX: https://github.com/PaddlePaddle/PaddleX.git @ b851433056fa1493002b7473ee9ba5106807084b

METEOR 详细解释

METEOR（Metric for Evaluation of Translation with Explicit ORdering）是一个用于评估机器翻译和文本生成质量的指标。

METEOR 的工作原理

METEOR 通过以下步骤计算相似度分数：

词汇匹配：在候选文本和参考文本之间寻找匹配的词汇
- 精确匹配：完全相同的词
- 词干匹配：词的词根相同
- 同义词匹配：使用 WordNet 等词典识别同义词
对齐计算：找到最佳的词汇对齐方式
分数计算：
```
METEOR = (1 - α × 惩罚因子) × 调和平均值
```
其中：
- 调和平均值基于精确率和召回率
- 惩罚因子考虑词序的重要性

在代码中的实现

从您的代码可以看到，METEOR 的使用方式：

# ...existing code...
meteor = evaluate.load('meteor', keep_in_memory=True, experiment_id=random.randint(1,1e8))
meteor_results = meteor.compute(predictions=predictions, references=references)
result[group_name] = meteor_results['meteor']
# ...existing code...

注意：代码中存在一个错误，predictions 和 references 的赋值顺序颠倒了：

# ...existing code...
for sample in samples:
    gt = sample['norm_gt'] if sample.get('norm_gt') else sample['gt']
    pred = sample['norm_pred'] if sample.get('norm_pred') else sample['pred']
    # 应该是：
    predictions.append(pred)  # 预测结果
    references.append(gt)     # 真实标签
# ...existing code...

使用场景

机器翻译评估
- 评估翻译系统的输出质量
- 比较不同翻译模型的性能
文本摘要评估
- 评估自动摘要系统的效果
- 衡量摘要的信息保留度
OCR/文档识别评估（如您的项目）
- 评估光学字符识别的准确性
- 衡量文档解析结果的质量
问答系统评估
- 评估自动问答系统的回答质量
- 比较生成答案与标准答案的相似度

METEOR 的优势

语义理解：考虑同义词和词干变化
词序敏感：通过惩罚因子考虑词序重要性
平衡性好：在精确率和召回率之间取得平衡
人类判断相关性高：与人类评判结果相关性较强

与其他指标的比较

vs BLEU：METEOR 更注重召回率，BLEU 更注重精确率
vs Edit Distance：METEOR 考虑语义相似性，编辑距离只考虑字符差异
vs TEDS：TEDS 专门用于表格结构评估，METEOR 用于通用文本评估

在您的文档识别项目中，METEOR 特别适合评估文本内容的识别准确性，能够容忍一些同义词替换和词序变化。

METEOR.md 2.6 KB История Исходник