简体中文 | English
目标检测模块是计算机视觉系统中的关键组成部分,负责在图像或视频中定位和标记出包含特定目标的区域。该模块的性能直接影响到整个计算机视觉系统的准确性和效率。目标检测模块通常会输出目标区域的边界框(Bounding Boxes),这些边界框将作为输入传递给目标识别模块进行后续处理。
| 模型 | mAP(%) | GPU推理耗时 (ms) | CPU推理耗时 (ms) | 模型存储大小 (M) | 介绍 |
|---|---|---|---|---|---|
| PicoDet-L | 42.6 | 16.6715 | 169.904 | 20.9 M | PP-PicoDet是一种全尺寸、棱视宽目标的轻量级目标检测算法,它考虑移动端设备运算量。与传统目标检测算法相比,PP-PicoDet具有更小的模型尺寸和更低的计算复杂度,并在保证检测精度的同时更高的速度和更低的延迟。 |
| PicoDet-S | 29.1 | 14.097 | 37.6563 | 4.4 M | |
| PP-YOLOE_plus-L | 52.9 | 33.5644 | 814.825 | 185.3 M | PP-YOLOE_plus 是一种是百度飞桨视觉团队自研的云边一体高精度模型PP-YOLOE迭代优化升级的版本,通过使用Objects365大规模数据集、优化预处理,大幅提升了模型端到端推理速度。 |
| PP-YOLOE_plus-S | 43.7 | 16.8884 | 223.059 | 28.3 M | |
| RT-DETR-H | 56.3 | 114.814 | 3933.39 | 435.8 M | RT-DETR是第一个实时端到端目标检测器。该模型设计了一个高效的混合编码器,满足模型效果与吞吐率的双需求,高效处理多尺度特征,并提出了加速和优化的查询选择机制,以优化解码器查询的动态化。RT-DETR支持通过使用不同的解码器来实现灵活端到端推理速度。 |
| RT-DETR-L | 53.0 | 34.5252 | 1454.27 | 113.7 M |
❗ 以上列出的是目标检测模块重点支持的6个核心模型,该模块总共支持37个模型,完整的模型列表如下:
👉模型列表详情
模型 mAP(%) GPU推理耗时 (ms) CPU推理耗时 (ms) 模型存储大小 (M) 介绍 Cascade-FasterRCNN-ResNet50-FPN 41.1 - - 245.4 M Cascade-FasterRCNN 是一种改进的Faster R-CNN目标检测模型,通过耦联多个检测器,利用不同IoU阈值优化检测结果,解决训练和预测阶段的mismatch问题,提高目标检测的准确性。 Cascade-FasterRCNN-ResNet50-vd-SSLDv2-FPN 45.0 - - 246.2 M CenterNet-DLA-34 37.6 - - 75.4 M CenterNet是一种anchor-free目标检测模型,把待检测物体的关键点视为单一点-即其边界框的中心点,并通过关键点进行回归。 CenterNet-ResNet50 38.9 - - 319.7 M DETR-R50 42.3 59.2132 5334.52 159.3 M DETR 是Facebook提出的一种transformer目标检测模型,该模型在不需要预定义的先验框anchor和NMS的后处理策略的情况下,就可以实现端到端的目标检测。 FasterRCNN-ResNet34-FPN 37.8 - - 137.5 M Faster R-CNN是典型的two-stage目标检测模型,即先生成区域建议(Region Proposal),然后在生成的Region Proposal上做分类和回归。相较于前代R-CNN和Fast R-CNN,Faster R-CNN的改进主要在于区域建议方面,使用区域建议网络(Region Proposal Network, RPN)提供区域建议,以取代传统选择性搜索。RPN是卷积神经网络,并与检测网络共享图像的卷积特征,减少了区域建议的计算开销。 FasterRCNN-ResNet50-FPN 38.4 - - 148.1 M FasterRCNN-ResNet50-vd-FPN 39.5 - - 148.1 M FasterRCNN-ResNet50-vd-SSLDv2-FPN 41.4 - - 148.1 M FasterRCNN-ResNet50 36.7 - - 120.2 M FasterRCNN-ResNet101-FPN 41.4 - - 216.3 M FasterRCNN-ResNet101 39.0 - - 188.1 M FasterRCNN-ResNeXt101-vd-FPN 43.4 - - 360.6 M FasterRCNN-Swin-Tiny-FPN 42.6 - - 159.8 M FCOS-ResNet50 39.6 103.367 3424.91 124.2 M FCOS是一种密集预测的anchor-free目标检测模型,使用RetinaNet的骨架,直接在feature map上回归目标物体的长宽,并预测物体的类别以及centerness(feature map上像素点离物体中心的偏移程度),centerness最终会作为权重来调整物体得分。 PicoDet-L 42.6 16.6715 169.904 20.9 M PP-PicoDet是一种全尺寸、棱视宽目标的轻量级目标检测算法,它考虑移动端设备运算量。与传统目标检测算法相比,PP-PicoDet具有更小的模型尺寸和更低的计算复杂度,并在保证检测精度的同时更高的速度和更低的延迟。 PicoDet-M 37.5 16.2311 71.7257 16.8 M PicoDet-S 29.1 14.097 37.6563 4.4 M PicoDet-XS 26.2 13.8102 48.3139 5.7 M PP-YOLOE_plus-L 52.9 33.5644 814.825 185.3 M PP-YOLOE_plus 是一种是百度飞桨视觉团队自研的云边一体高精度模型PP-YOLOE迭代优化升级的版本,通过使用Objects365大规模数据集、优化预处理,大幅提升了模型端到端推理速度。 PP-YOLOE_plus-M 49.8 19.843 449.261 82.3 M PP-YOLOE_plus-S 43.7 16.8884 223.059 28.3 M PP-YOLOE_plus-X 54.7 57.8995 1439.93 349.4 M RT-DETR-H 56.3 114.814 3933.39 435.8 M RT-DETR是第一个实时端到端目标检测器。该模型设计了一个高效的混合编码器,满足模型效果与吞吐率的双需求,高效处理多尺度特征,并提出了加速和优化的查询选择机制,以优化解码器查询的动态化。RT-DETR支持通过使用不同的解码器来实现灵活端到端推理速度。 RT-DETR-L 53.0 34.5252 1454.27 113.7 M RT-DETR-R18 46.5 19.89 784.824 70.7 M RT-DETR-R50 53.1 41.9327 1625.95 149.1 M RT-DETR-X 54.8 61.8042 2246.64 232.9 M YOLOv3-DarkNet53 39.1 40.1055 883.041 219.7 M YOLOv3是一种实时的端到端目标检测器。它使用一个独特的单个卷积神经网络,将目标检测问题分解为一个回归问题,从而实现实时的检测。该模型采用了多个尺度的检测,提高了不同尺度目标物体的检测性能。 YOLOv3-MobileNetV3 31.4 18.6692 267.214 83.8 M YOLOv3-ResNet50_vd_DCN 40.6 31.6276 856.047 163.0 M YOLOX-L 50.1 185.691 1250.58 192.5 M YOLOX模型以YOLOv3作为目标检测网络的框架,通过设计Decoupled Head、Data Aug、Anchor Free以及SimOTA组件,显著提升了模型在各种复杂场景下的检测性能。 YOLOX-M 46.9 123.324 688.071 90.0 M YOLOX-N 26.1 79.1665 155.59 3.4 M YOLOX-S 40.4 184.828 474.446 32.0 M YOLOX-T 32.9 102.748 212.52 18.1 M YOLOX-X 51.8 227.361 2067.84 351.5 M 注:以上精度指标为COCO2017验证集 mAP(0.5:0.95)。所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
❗ 在快速集成前,请先安装 PaddleX 的 wheel 包,详细请参考 PaddleX本地安装教程
完成 wheel 包的安装后,几行代码即可完成目标检测模块的推理,可以任意切换该模块下的模型,您也可以将目标检测的模块中的模型推理集成到您的项目中。运行以下代码前,请您下载示例图片到本地。
from paddlex import create_model
model = create_model("PicoDet-S")
output = model.predict("general_object_detection_002.png", batch_size=1)
for res in output:
res.print(json_format=False)
res.save_to_img("./output/")
res.save_to_json("./output/res.json")
关于更多 PaddleX 的单模型推理的 API 的使用方法,可以参考PaddleX单模型Python脚本使用说明。
如果你追求更高精度的现有模型,可以使用 PaddleX 的二次开发能力,开发更好的目标检测模型。在使用 PaddleX 开发目标检测模型之前,请务必安装 PaddleX的目标检测相关模型训练插件,安装过程可以参考 PaddleX本地安装教程
在进行模型训练前,需要准备相应任务模块的数据集。PaddleX 针对每一个模块提供了数据校验功能,只有通过数据校验的数据才可以进行模型训练。此外,PaddleX 为每一个模块都提供了 Demo 数据集,您可以基于官方提供的 Demo 数据完成后续的开发。若您希望用私有数据集进行后续的模型训练,可以参考PaddleX目标检测任务模块数据标注教程。
您可以参考下面的命令将 Demo 数据集下载到指定文件夹:
wget https://paddle-model-ecology.bj.bcebos.com/paddlex/data/det_coco_examples.tar -P ./dataset
tar -xf ./dataset/det_coco_examples.tar -C ./dataset/
一行命令即可完成数据校验:
python main.py -c paddlex/configs/object_detection/PicoDet-S.yaml \
-o Global.mode=check_dataset \
-o Global.dataset_dir=./dataset/det_coco_examples
执行上述命令后,PaddleX 会对数据集进行校验,并统计数据集的基本信息,命令运行成功后会在log中打印出Check dataset passed !信息。校验结果文件保存在./output/check_dataset_result.json,同时相关产出会保存在当前目录的./output/check_dataset目录下,产出目录中包括可视化的示例样本图片和样本分布直方图。
在您完成数据校验之后,可以通过修改配置文件或是追加超参数的方式对数据集的格式进行转换,也可以对数据集的训练/验证比例进行重新划分。
一条命令即可完成模型的训练,以此处目标检测模型 PicoDet-S 的训练为例:
python main.py -c paddlex/configs/object_detection/PicoDet-S.yaml \
-o Global.mode=train \
-o Global.dataset_dir=./dataset/det_coco_examples
需要如下几步:
.yaml 配置文件路径(此处为PicoDet-S.yaml,训练其他模型时,需要的指定相应的配置文件,模型和配置的文件的对应关系,可以查阅PaddleX模型列表(CPU/GPU))-o Global.mode=train-o Global.dataset_dir
其他相关参数均可通过修改.yaml配置文件中的Global和Train下的字段来进行设置,也可以通过在命令行中追加参数来进行调整。如指定前 2 卡 gpu 训练:-o Global.device=gpu:0,1;设置训练轮次数为 10:-o Train.epochs_iters=10。更多可修改的参数及其详细解释,可以查阅模型对应任务模块的配置文件说明PaddleX通用模型配置文件参数说明。在完成模型训练后,可以对指定的模型权重文件在验证集上进行评估,验证模型精度。使用 PaddleX 进行模型评估,一条命令即可完成模型的评估:
python main.py -c paddlex/configs/object_detection/PicoDet-S.yaml \
-o Global.mode=evaluate \
-o Global.dataset_dir=./dataset/det_coco_examples
与模型训练类似,需要如下几步:
.yaml 配置文件路径(此处为PicoDet-S.yaml)-o Global.mode=evaluate-o Global.dataset_dir
其他相关参数均可通过修改.yaml配置文件中的Global和Evaluate下的字段来进行设置,详细请参考PaddleX通用模型配置文件参数说明。在完成模型的训练和评估后,即可使用训练好的模型权重进行推理预测或者进行Python集成。
通过命令行的方式进行推理预测,只需如下一条命令。运行以下代码前,请您下载示例图片到本地。
python main.py -c paddlex/configs/object_detection/PicoDet-S.yaml \
-o Global.mode=predict \
-o Predict.model_dir="./output/best_model/inference" \
-o Predict.input="general_object_detection_002.png"
与模型训练和评估类似,需要如下几步:
指定模型的.yaml 配置文件路径(此处为PicoDet-S.yaml)
指定模式为模型推理预测:-o Global.mode=predict
指定模型权重路径:-o Predict.model_dir="./output/best_model/inference"
指定输入数据路径:-o Predict.input="..."
其他相关参数均可通过修改.yaml配置文件中的Global和Predict下的字段来进行设置,详细请参考PaddleX通用模型配置文件参数说明。
模型可以直接集成到 PaddleX 产线中,也可以直接集成到您自己的项目中。
1.产线集成
目标检测模块可以集成的PaddleX产线有通用目标检测产线,只需要替换模型路径即可完成相关产线的目标检测模块的模型更新。在产线集成中,你可以使用高性能部署和服务化部署来部署你得到的模型。
2.模块集成
您产出的权重可以直接集成到目标检测模块中,可以参考快速集成的 Python 示例代码,只需要将模型替换为你训练的到的模型路径即可。