--- comments: true --- # 开放词汇分割模块使用教程 ## 一、概述 开放词汇分割是一项图像分割任务,旨在根据文本描述、边框、关键点等除图像以外的信息作为提示,分割图像中对应的物体。它允许模型处理广泛的对象类别,而无需预定义的类别列表。这项技术结合了视觉和多模态技术,极大地提高了图像处理的灵活性和精度。开放词汇分割在计算机视觉领域具有重要应用价值,尤其在复杂场景下的对象分割任务中表现突出。 ## 二、支持模型列表
模型模型下载链接 GPU推理耗时(ms) CPU推理耗时 (ms) 模型存储大小(M) 介绍
SAM-H_box推理模型 144.9 33920.7 2433.7 SAM(Segment Anything Model)是一种先进的图像分割模型,能够根据用户提供的简单提示(如点、框或文本)对图像中的任意对象进行分割。基于SA-1B数据集训练,有一千万的图像数据和十一亿掩码标注,在大部分场景均有较好的效果。其中SAM-H_box表示使用框作为分割提示输入,SAM会分割被框包裹主的主体;SAM-H_point表示使用点作为分割提示输入,SAM会分割点所在的主体。
SAM-H_point推理模型 144.9 33920.7 2433.7
测试环境说明:
模式 GPU配置 CPU配置 加速技术组合
常规模式 FP32精度 / 无TRT加速 FP32精度 / 8线程 PaddleInference
高性能模式 选择先验精度类型和加速策略的最优组合 FP32精度 / 8线程 选择先验最优后端(Paddle/OpenVINO/TRT等)
## 三、快速集成 > ❗ 在快速集成前,请先安装 PaddleX 的 wheel 包,详细请参考 [PaddleX本地安装教程](../../../installation/installation.md) 完成whl包的安装后,几行代码即可完成开放词汇分割模块的推理,可以任意切换该模块下的模型,您也可以将开放词汇分割的模块中的模型推理集成到您的项目中。运行以下代码前,请您下载[示例图片](https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/open_vocabulary_segmentation.jpg)到本地。 ```python from paddlex import create_model model = create_model(model_name='SAM-H_box') results = model.predict( input="open_vocabulary_segmentation.jpg", prompts={ "box_prompt": [ [112.9239273071289,118.38755798339844,513.7587890625,382.0570068359375], [4.597158432006836,263.5540771484375,92.20092010498047,336.5640869140625], [592.3548583984375,260.8838806152344,607.1813354492188,294.2261962890625] ], }, batch_size=1 ) for res in results: res.print() res.save_to_img(f"./output/") res.save_to_json(f"./output/res.json") ``` 运行后,得到的结果为: ```bash {'res': "{'input_path': 'open_vocabulary_segmentation.jpg', 'prompts': {'box_prompt': [[112.9239273071289, 118.38755798339844, 513.7587890625, 382.0570068359375], [4.597158432006836, 263.5540771484375, 92.20092010498047, 336.5640869140625], [592.3548583984375, 260.8838806152344, 607.1813354492188, 294.2261962890625]]}, 'masks': '...', 'mask_infos': [{'label': 'box_prompt', 'prompt': [112.9239273071289, 118.38755798339844, 513.7587890625, 382.0570068359375]}, {'label': 'box_prompt', 'prompt': [4.597158432006836, 263.5540771484375, 92.20092010498047, 336.5640869140625]}, {'label': 'box_prompt', 'prompt': [592.3548583984375, 260.8838806152344, 607.1813354492188, 294.2261962890625]}]}"} ``` 运行结果参数含义如下: - `input_path`: 表示输入待预测图像的路径 - `prompts`: 预测使用的原始prompt信息 - `masks`: 实际预测的mask,由于数据过大不便于直接print,所以此处用`...`替换,可以通过`res.save_to_img()`将预测结果保存为图片,通过`res.save_to_json()`将预测结果保存为json文件。 - `mask_infos`: 每个预测的mask对应的prompt信息 - `label`: 预测的mask对应的prompt类型 - `prompt`: 预测的mask对应的原始prompt输入 可视化图片如下: 相关方法、参数等说明如下: * `create_model`实例化开放词汇分割模型(此处以`SAM-H_box`为例),具体说明如下:
参数 参数说明 参数类型 可选项 默认值
model_name 模型名称 str
model_dir 模型存储路径 str
device 模型推理设备 str 支持指定GPU具体卡号,如“gpu:0”,其他硬件具体卡号,如“npu:0”,CPU如“cpu”。 gpu:0
use_hpip 是否启用高性能推理插件 bool False
hpi_config 高性能推理配置 dict | None None
* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用开放词汇分割模型的 `predict()` 方法进行推理预测,`predict()` 方法参数有 `input` 、 `batch_size` 和 `prompts`,具体说明如下:
参数 参数说明 参数类型 可选项 默认值
input 待预测数据,支持多种输入类型 Python Var/str/list
  • Python变量,如numpy.ndarray表示的图像数据
  • 文件路径,如图像文件的本地路径:/root/data/img.jpg
  • URL链接,如图像文件的网络URL:示例
  • 本地目录,该目录下需包含待预测数据文件,如本地路径:/root/data/
  • 列表,列表元素需为上述类型数据,如[numpy.ndarray, numpy.ndarray][\"/root/data/img1.jpg\", \"/root/data/img2.jpg\"][\"/root/data1\", \"/root/data2\"]
batch_size 批大小 int 任意整数 1
prompts 模型使用提示词 dict
  • dict,如{"box_prompt": [[float, float, float, foat], ...]},表示推理时使用的多个bbox作为prompt
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为图片、保存为`json`文件的操作:
方法 方法说明 参数 参数类型 参数说明 默认值
print() 打印结果到终端 format_json bool 是否对输出内容进行使用 JSON 缩进格式化 True
indent int 指定缩进级别,以美化输出的 JSON 数据,使其更具可读性,仅当 format_jsonTrue 时有效 4
ensure_ascii bool 控制是否将非 ASCII 字符转义为 Unicode。设置为 True 时,所有非 ASCII 字符将被转义;False 则保留原始字符,仅当format_jsonTrue时有效 False
save_to_json() 将结果保存为json格式的文件 save_path str 保存的文件路径,当为目录时,保存文件命名与输入文件类型命名一致
indent int 指定缩进级别,以美化输出的 JSON 数据,使其更具可读性,仅当 format_jsonTrue 时有效 4
ensure_ascii bool 控制是否将非 ASCII 字符转义为 Unicode。设置为 True 时,所有非 ASCII 字符将被转义;False 则保留原始字符,仅当format_jsonTrue时有效 False
save_to_img() 将结果保存为图像格式的文件 save_path str 保存的文件路径,当为目录时,保存文件命名与输入文件类型命名一致
* 此外,也支持通过属性获取带结果的可视化图像和预测结果,具体如下:
属性 属性说明
json 获取预测的json格式的结果
img 获取格式为dict的可视化图像
关于更多 PaddleX 的单模型推理的 API 的使用方法,可以参考[PaddleX单模型Python脚本使用说明](../../instructions/model_python_API.md)。 ## 四、二次开发 当前模块暂时不支持微调训练,仅支持推理集成。关于该模块的微调训练,计划在未来支持。