llm_aided.py 2.1 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364
  1. # Copyright (c) Opendatalab. All rights reserved.
  2. formula_correction_prompt = """请根据以下指南修正LaTeX公式的错误,确保公式能够渲染且符合原始内容:
  3. 1. 修正渲染或编译错误:
  4. - Some syntax errors such as mismatched/missing/extra tokens. Your task is to fix these syntax errors and make sure corrected results conform to latex math syntax principles.
  5. - 包含KaTeX不支持的关键词等原因导致的无法编译或渲染的错误
  6. 2. 保留原始信息:
  7. - 保留原始公式中的所有重要信息
  8. - 不要添加任何原始公式中没有的新信息
  9. IMPORTANT:请仅返回修正后的公式,不要包含任何介绍、解释或元数据。
  10. LaTeX recognition result:
  11. $FORMULA
  12. Your corrected result:
  13. """
  14. text_correction_prompt = f"""请根据以下指南修正OCR引起的错误,确保文本连贯并符合原始内容:
  15. 1. 修正OCR引起的拼写错误和错误:
  16. - 修正常见的OCR错误(例如,'rn' 被误读为 'm')
  17. - 使用上下文和常识进行修正
  18. - 只修正明显的错误,不要不必要的修改内容
  19. - 不要添加额外的句号或其他不必要的标点符号
  20. 2. 保持原始结构:
  21. - 保留所有标题和子标题
  22. 3. 保留原始内容:
  23. - 保留原始文本中的所有重要信息
  24. - 不要添加任何原始文本中没有的新信息
  25. - 保留段落之间的换行符
  26. 4. 保持连贯性:
  27. - 确保内容与前文顺畅连接
  28. - 适当处理在句子中间开始或结束的文本
  29. 5. 修正行内公式:
  30. - 去除行内公式前后多余的空格
  31. - 修正公式中的OCR错误
  32. - 确保公式能够通过KaTeX渲染
  33. 6. 修正全角字符
  34. - 修正全角标点符号为半角标点符号
  35. - 修正全角字母为半角字母
  36. - 修正全角数字为半角数字
  37. IMPORTANT:请仅返回修正后的文本,保留所有原始格式,包括换行符。不要包含任何介绍、解释或元数据。
  38. Previous context:
  39. Current chunk to process:
  40. Corrected text:
  41. """
  42. def llm_aided_formula(pdf_info_dict, formula_aided_config):
  43. pass
  44. def llm_aided_text(pdf_info_dict, text_aided_config):
  45. pass