magicpdf.py 2.0 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748
  1. """
  2. 这里实现2个click命令:
  3. 第一个:
  4. 接收一个完整的s3路径,例如:s3://llm-pdf-text/pdf_ebook_and_paper/pre-clean-mm-markdown/v014/part-660420b490be-000008.jsonl?bytes=0,81350
  5. 1)根据~/magic-pdf.json里的ak,sk等,构造s3cliReader读取到这个jsonl的对应行,返回json对象。
  6. 2)根据Json对象里的pdf的s3路径获取到他的ak,sk,endpoint,构造出s3cliReader用来读取pdf
  7. 3)从magic-pdf.json里读取到本地保存图片、Md等的临时目录位置,构造出LocalImageWriter,用来保存截图
  8. 4)从magic-pdf.json里读取到本地保存图片、Md等的临时目录位置,构造出LocalIRdWriter,用来读写本地文件
  9. 最后把以上步骤准备好的对象传入真正的解析API
  10. 第二个:
  11. 接收1)pdf的本地路径。2)模型json文件(可选)。然后:
  12. 1)根据~/magic-pdf.json读取到本地保存图片、md等临时目录的位置,构造出LocalImageWriter,用来保存截图
  13. 2)从magic-pdf.json里读取到本地保存图片、Md等的临时目录位置,构造出LocalIRdWriter,用来读写本地文件
  14. 3)根据约定,根据pdf本地路径,推导出pdf模型的json,并读入
  15. 效果:
  16. python magicpdf.py --json s3://llm-pdf-text/scihub/xxxx.json?bytes=0,81350
  17. python magicpdf.py --pdf /home/llm/Downloads/xxxx.pdf --model /home/llm/Downloads/xxxx.json 或者 python magicpdf.py --pdf /home/llm/Downloads/xxxx.pdf
  18. """
  19. import click
  20. @click.group()
  21. def cli():
  22. pass
  23. @cli.command()
  24. @click.option('--json', type=str, help='输入一个S3路径')
  25. def json_command(json):
  26. # 这里处理json相关的逻辑
  27. print(f'处理JSON: {json}')
  28. @cli.command()
  29. @click.option('--pdf', type=click.Path(exists=True), required=True, help='PDF文件的路径')
  30. @click.option('--model', type=click.Path(exists=True), help='模型的路径')
  31. def pdf_command(pdf, model):
  32. # 这里处理pdf和模型相关的逻辑
  33. print(f'处理PDF: {pdf}')
  34. print(f'加载模型: {model}')
  35. if __name__ == '__main__':
  36. cli()