|
|
hai 1 semana | |
|---|---|---|
| .. | ||
| PP-StructureV3-RT-DETR-H_layout_17cls.yaml | hai 1 semana | |
| PP-StructureV3-zhch.yaml | hai 1 semana | |
| PP-StructureV3.yaml | hai 1 semana | |
| PaddleOCR-VL-Client-RT-DETR-H_layout_17cls.yaml | hai 1 semana | |
| PaddleOCR-VL-Client.yaml | hai 1 semana | |
| PaddleOCR-VL.yaml | hai 1 semana | |
| README.md | hai 1 semana | |
| layout_parsing.yaml | hai 1 semana | |
| table_recognition_v2-zhch.yaml | hai 1 semana | |
| table_recognition_v2.yaml | hai 1 semana | |
本目录包含 PaddleX 的 pipeline 配置文件,用于配置不同的文档解析 pipeline。
# 使用相对路径(从工具目录运行)
python main.py --input document.pdf --output_dir ./output \
--pipeline ../paddle_common/config/PaddleOCR-VL-Client-RT-DETR-H_layout_17cls.yaml
# 使用绝对路径
python main.py --input document.pdf --output_dir ./output \
--pipeline /path/to/ocr_platform/ocr_tools/paddle_common/config/PP-StructureV3-zhch.yaml
from pathlib import Path
# 获取配置文件路径
config_dir = Path(__file__).parent / "config"
config_path = config_dir / "PaddleOCR-VL-Client-RT-DETR-H_layout_17cls.yaml"
# 使用配置文件初始化 pipeline
processor = PaddleXProcessor(
pipeline_name=str(config_path),
device="gpu:0"
)
使用 RT-DETR-H 作为布局检测模型,支持 17 类布局检测:
带有 -zhch 后缀的配置文件是自定义版本,可能包含:
PaddleOCR-VL),无需指定配置文件paddle_vl_tool: PaddleOCR-VL 批量处理工具ppstructure_tool: PP-StructureV3 批量处理工具paddle_common: PaddleX 共享核心模块