| 模型 |
mAP(%) |
GPU推理耗时 (ms) |
CPU推理耗时 (ms) |
模型存储大小 (M) |
介绍 |
| Cascade-FasterRCNN-ResNet50-FPN |
41.1 |
- |
- |
245.4 M |
Cascade-FasterRCNN 是一种改进的Faster R-CNN目标检测模型,通过耦联多个检测器,利用不同IoU阈值优化检测结果,解决训练和预测阶段的mismatch问题,提高目标检测的准确性。 |
| Cascade-FasterRCNN-ResNet50-vd-SSLDv2-FPN |
45.0 |
- |
- |
246.2 M |
|
| CenterNet-DLA-34 |
37.6 |
- |
- |
75.4 M |
CenterNet是一种anchor-free目标检测模型,把待检测物体的关键点视为单一点-即其边界框的中心点,并通过关键点进行回归。 |
| CenterNet-ResNet50 |
38.9 |
- |
- |
319.7 M |
|
| DETR-R50 |
42.3 |
59.2132 |
5334.52 |
159.3 M |
DETR 是Facebook提出的一种transformer目标检测模型,该模型在不需要预定义的先验框anchor和NMS的后处理策略的情况下,就可以实现端到端的目标检测。 |
| FasterRCNN-ResNet34-FPN |
37.8 |
- |
- |
137.5 M |
Faster R-CNN是典型的two-stage目标检测模型,即先生成区域建议(Region Proposal),然后在生成的Region Proposal上做分类和回归。相较于前代R-CNN和Fast R-CNN,Faster R-CNN的改进主要在于区域建议方面,使用区域建议网络(Region Proposal Network, RPN)提供区域建议,以取代传统选择性搜索。RPN是卷积神经网络,并与检测网络共享图像的卷积特征,减少了区域建议的计算开销。 |
| FasterRCNN-ResNet50-FPN |
38.4 |
- |
- |
148.1 M |
|
| FasterRCNN-ResNet50-vd-FPN |
39.5 |
- |
- |
148.1 M |
|
| FasterRCNN-ResNet50-vd-SSLDv2-FPN |
41.4 |
- |
- |
148.1 M |
|
| FasterRCNN-ResNet50 |
36.7 |
- |
- |
120.2 M |
|
| FasterRCNN-ResNet101-FPN |
41.4 |
- |
- |
216.3 M |
|
| FasterRCNN-ResNet101 |
39.0 |
- |
- |
188.1 M |
|
| FasterRCNN-ResNeXt101-vd-FPN |
43.4 |
- |
- |
360.6 M |
|
| FasterRCNN-Swin-Tiny-FPN |
42.6 |
- |
- |
159.8 M |
|
| FCOS-ResNet50 |
39.6 |
103.367 |
3424.91 |
124.2 M |
FCOS是一种密集预测的anchor-free目标检测模型,使用RetinaNet的骨架,直接在feature map上回归目标物体的长宽,并预测物体的类别以及centerness(feature map上像素点离物体中心的偏移程度),centerness最终会作为权重来调整物体得分。 |
| PicoDet-L |
42.6 |
16.6715 |
169.904 |
20.9 M |
PP-PicoDet是一种全尺寸、棱视宽目标的轻量级目标检测算法,它考虑移动端设备运算量。与传统目标检测算法相比,PP-PicoDet具有更小的模型尺寸和更低的计算复杂度,并在保证检测精度的同时更高的速度和更低的延迟。 |
| PicoDet-M |
37.5 |
16.2311 |
71.7257 |
16.8 M |
|
| PicoDet-S |
29.1 |
14.097 |
37.6563 |
4.4 M |
|
| PicoDet-XS |
26.2 |
13.8102 |
48.3139 |
5.7 M |
|
| PP-YOLOE_plus-L |
52.9 |
33.5644 |
814.825 |
185.3 M |
PP-YOLOE_plus 是一种是百度飞桨视觉团队自研的云边一体高精度模型PP-YOLOE迭代优化升级的版本,通过使用Objects365大规模数据集、优化预处理,大幅提升了模型端到端推理速度。 |
| PP-YOLOE_plus-M |
49.8 |
19.843 |
449.261 |
82.3 M |
|
| PP-YOLOE_plus-S |
43.7 |
16.8884 |
223.059 |
28.3 M |
|
| PP-YOLOE_plus-X |
54.7 |
57.8995 |
1439.93 |
349.4 M |
|
| RT-DETR-H |
56.3 |
114.814 |
3933.39 |
435.8 M |
RT-DETR是第一个实时端到端目标检测器。该模型设计了一个高效的混合编码器,满足模型效果与吞吐率的双需求,高效处理多尺度特征,并提出了加速和优化的查询选择机制,以优化解码器查询的动态化。RT-DETR支持通过使用不同的解码器来实现灵活端到端推理速度。 |
| RT-DETR-L |
53.0 |
34.5252 |
1454.27 |
113.7 M |
|
| RT-DETR-R18 |
46.5 |
19.89 |
784.824 |
70.7 M |
|
| RT-DETR-R50 |
53.1 |
41.9327 |
1625.95 |
149.1 M |
|
| RT-DETR-X |
54.8 |
61.8042 |
2246.64 |
232.9 M |
|
| YOLOv3-DarkNet53 |
39.1 |
40.1055 |
883.041 |
219.7 M |
YOLOv3是一种实时的端到端目标检测器。它使用一个独特的单个卷积神经网络,将目标检测问题分解为一个回归问题,从而实现实时的检测。该模型采用了多个尺度的检测,提高了不同尺度目标物体的检测性能。 |
| YOLOv3-MobileNetV3 |
31.4 |
18.6692 |
267.214 |
83.8 M |
|
| YOLOv3-ResNet50_vd_DCN |
40.6 |
31.6276 |
856.047 |
163.0 M |
|
| YOLOX-L |
50.1 |
185.691 |
1250.58 |
192.5 M |
YOLOX模型以YOLOv3作为目标检测网络的框架,通过设计Decoupled Head、Data Aug、Anchor Free以及SimOTA组件,显著提升了模型在各种复杂场景下的检测性能。 |
| YOLOX-M |
46.9 |
123.324 |
688.071 |
90.0 M |
|
| YOLOX-N |
26.1 |
79.1665 |
155.59 |
3.4 M |
|
| YOLOX-S |
40.4 |
184.828 |
474.446 |
32.0 M |
|
| YOLOX-T |
32.9 |
102.748 |
212.52 |
18.1 M |
|
| YOLOX-X |
51.8 |
227.361 |
2067.84 |
351.5 M |
|
**注:以上精度指标为[COCO2017](https://cocodataset.org/#home)验证集 mAP(0.5:0.95)。所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。**