read_api.rst 1.4 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354
  1. read_api
  2. =========
  3. 从文件或目录读取内容以创建 Dataset。目前,我们提供了几个覆盖某些场景的函数。如果你有新的、大多数用户都会遇到的场景,可以在官方 GitHub 问题页面上发布详细描述。同时,实现你自己的读取相关函数也非常容易。
  4. 重要函数
  5. ---------
  6. read_jsonl
  7. ^^^^^^^^^^^^^^^^
  8. 从本地机器或远程 S3 上的 JSONL 文件读取内容。如果你想了解更多关于 JSONL 的信息,请参阅 :doc:`../../additional_notes/glossary`。
  9. .. code:: python
  10. from magic_pdf.data.io.read_api import *
  11. # 从本地机器读取 JSONL
  12. datasets = read_jsonl("tt.jsonl", None)
  13. # 从远程 S3 读取 JSONL
  14. datasets = read_jsonl("s3://bucket_1/tt.jsonl", s3_reader)
  15. read_local_pdfs
  16. ^^^^^^^^^^^^^^^^
  17. 从路径或目录读取 PDF 文件。
  18. .. code:: python
  19. from magic_pdf.data.io.read_api import *
  20. # 读取 PDF 路径
  21. datasets = read_local_pdfs("tt.pdf")
  22. # 读取目录下的 PDF 文件
  23. datasets = read_local_pdfs("pdfs/")
  24. read_local_images
  25. ^^^^^^^^^^^^^^^^^^^
  26. 从路径或目录读取图像。
  27. .. code:: python
  28. from magic_pdf.data.io.read_api import *
  29. # 从图像路径读取
  30. datasets = read_local_images("tt.png")
  31. # 从目录读取以 suffixes 数组中指定后缀结尾的文件
  32. datasets = read_local_images("images/", suffixes=["png", "jpg"])