| 模型 | Top1 Acc(%) | GPU推理耗时 (ms) | CPU推理耗时 (ms) | 模型存储大小 (M) | 介绍 |
|---|---|---|---|---|---|
| CLIP_vit_base_patch16_224 | 85.36 | 13.1957 | 285.493 | 306.5 M | CLIP是一种基于视觉和语言相关联的图像分类模型,采用对比学习和预训练方法,实现无监督或弱监督的图像分类,尤其适用于大规模数据集。模型通过将图像和文本映射到同一表示空间,学习到通用特征,具有良好的泛化能力和解释性。其在较好的训练误差,在很多下游任务都有较好的表现。 |
| CLIP_vit_large_patch14_224 | 88.1 | 51.1284 | 1131.28 | 1.04 G | |
| ConvNeXt_base_224 | 83.84 | 12.8473 | 1513.87 | 313.9 M | ConvNeXt系列模型是Meta在2022年提出的基于CNN架构的模型。该系列模型是在ResNet的基础上,通过借鉴SwinTransformer的优点设计,包括训练策略和网络结构的优化思路,从而改进的纯CNN架构网络,探索了卷积神经网络的性能上限。ConvNeXt系列模型具备卷积神经网络的诸多优点,包括推理效率高和易于迁移到下游任务等。 |
| ConvNeXt_base_384 | 84.90 | 31.7607 | 3967.05 | 313.9 M | |
| ConvNeXt_large_224 | 84.26 | 26.8103 | 2463.56 | 700.7 M | |
| ConvNeXt_large_384 | 85.27 | 66.4058 | 6598.92 | 700.7 M | |
| ConvNeXt_small | 83.13 | 9.74075 | 1127.6 | 178.0 M | |
| ConvNeXt_tiny | 82.03 | 5.48923 | 672.559 | 104.1 M | |
| FasterNet-L | 83.5 | 23.4415 | - | 357.1 M | FasterNet是一个旨在提高运行速度的神经网络,改进点主要如下: 1.重新审视了流行的运算符,发现低FLOPS主要来自于运算频繁的内存访问,特别是深度卷积; 2.提出了部分卷积(PConv),通过减少冗余计算和内存访问来更高效地提取图像特征; 3.基于PConv推出了FasterNet系列模型,这是一种新的设计方案,在不影响模型任务性能的情况下,在各种设备上实现了显著更高的运行速度。 |
| FasterNet-M | 83.0 | 21.8936 | - | 204.6 M | |
| FasterNet-S | 81.3 | 13.0409 | - | 119.3 M | |
| FasterNet-T0 | 71.9 | 12.2432 | - | 15.1 M | |
| FasterNet-T1 | 75.9 | 11.3562 | - | 29.2 M | |
| FasterNet-T2 | 79.1 | 10.703 | - | 57.4 M | |
| MobileNetV1_x0_5 | 63.5 | 1.86754 | 7.48297 | 4.8 M | MobileNetV1是Google于2017年发布的用于移动设备或嵌入式设备中的网络。该网络将传统的卷积操作拆解成深度可分离卷积,即Depthwise卷积和Pointwise卷积的组合。相比传统的卷积网络,该组合可以大大节省参数量和计算量。同时该网络可以用于图像分类等其他视觉任务中。 |
| MobileNetV1_x0_25 | 51.4 | 1.83478 | 4.83674 | 1.8 M | |
| MobileNetV1_x0_75 | 68.8 | 2.57903 | 10.6343 | 9.3 M | |
| MobileNetV1_x1_0 | 71.0 | 2.78781 | 13.98 | 15.2 M | |
| MobileNetV2_x0_5 | 65.0 | 4.94234 | 11.1629 | 7.1 M | MobileNetV2是Google继MobileNetV1提出的一种轻量级网络。相比MobileNetV1,MobileNetV2提出了Linear bottlenecks与Inverted residual block作为网络基本结构,通过大量地堆叠这些基本模块,构成了MobileNetV2的网络结构。最后,在FLOPs只有MobileNetV1的一半的情况下取得了更高的分类精度。 |
| MobileNetV2_x0_25 | 53.2 | 4.50856 | 9.40991 | 5.5 M | |
| MobileNetV2_x1_0 | 72.2 | 6.12159 | 16.0442 | 12.6 M | |
| MobileNetV2_x1_5 | 74.1 | 6.28385 | 22.5129 | 25.0 M | |
| MobileNetV2_x2_0 | 75.2 | 6.12888 | 30.8612 | 41.2 M | |
| MobileNetV3_large_x0_5 | 69.2 | 6.31302 | 14.5588 | 9.6 M | MobileNetV3是Google于2019年提出的一种基于NAS的轻量级网络。为了进一步提升效果,将relu和sigmoid激活函数分别替换为hard_swish与hard_sigmoid激活函数,同时引入了一些专门为减少网络计算量的改进策略。 |
| MobileNetV3_large_x0_35 | 64.3 | 5.76207 | 13.9041 | 7.5 M | |
| MobileNetV3_large_x0_75 | 73.1 | 8.41737 | 16.9506 | 14.0 M | |
| MobileNetV3_large_x1_0 | 75.3 | 8.64112 | 19.1614 | 19.5 M | |
| MobileNetV3_large_x1_25 | 76.4 | 8.73358 | 22.1296 | 26.5 M | |
| MobileNetV3_small_x0_5 | 59.2 | 5.16721 | 11.2688 | 6.8 M | |
| MobileNetV3_small_x0_35 | 53.0 | 5.22053 | 11.0055 | 6.0 M | |
| MobileNetV3_small_x0_75 | 66.0 | 5.39831 | 12.8313 | 8.5 M | |
| MobileNetV3_small_x1_0 | 68.2 | 6.00993 | 12.9598 | 10.5 M | |
| MobileNetV3_small_x1_25 | 70.7 | 6.9589 | 14.3995 | 13.0 M | |
| MobileNetV4_conv_large | 83.4 | 12.5485 | 51.6453 | 125.2 M | MobileNetV4是专为移动设备设计的高效架构。其核心在于引入了UIB(Universal Inverted Bottleneck)模块,这是一种统一且灵活的结构,融合了IB(Inverted Bottleneck)、ConvNeXt、FFN(Feed Forward Network)以及最新的ExtraDW(Extra Depthwise)模块。与UIB同时推出的还有Mobile MQA,这是种专为移动加速器定制的注意力块,可实现高达39%的显著加速。此外,MobileNetV4引入了一种新的神经架构搜索(Neural Architecture Search, NAS)方案,以提升搜索的有效性。 |
| MobileNetV4_conv_medium | 79.9 | 9.65509 | 26.6157 | 37.6 M | |
| MobileNetV4_conv_small | 74.6 | 5.24172 | 11.0893 | 14.7 M | |
| MobileNetV4_hybrid_large | 83.8 | 20.0726 | 213.769 | 145.1 M | |
| MobileNetV4_hybrid_medium | 80.5 | 19.7543 | 62.2624 | 42.9 M | |
| PP-HGNet_base | 85.0 | 14.2969 | 327.114 | 249.4 M | PP-HGNet(High Performance GPU Net)是百度飞桨视觉团队研发的适用于GPU平台的高性能骨干网络。该网络结合VOVNet的基础出使用了可学习的下采样层(LDS Layer),融合了ResNet_vd、PPHGNet等模型的优点。该模型在GPU平台上与其他SOTA模型在相同的速度下有着更高的精度。在同等速度下,该模型高于ResNet34-0模型3.8个百分点,高于ResNet50-0模型2.4个百分点,在使用相同的SLSD条款下,最终超越了ResNet50-D模型4.7个百分点。与此同时,在相同精度下,其推理速度也远超主流VisionTransformer的推理速度。 |
| PP-HGNet_small | 81.51 | 5.50661 | 119.041 | 86.5 M | |
| PP-HGNet_tiny | 79.83 | 5.22006 | 69.396 | 52.4 M | |
| PP-HGNetV2-B0 | 77.77 | 6.53694 | 23.352 | 21.4 M | PP-HGNetV2(High Performance GPU Network V2)是百度飞桨视觉团队的PP-HGNet的下一代版本,其在PP-HGNet的基础上,做了进一步优化和改进,其在NVIDIA发布的“Accuracy-Latency Balance”做到了极致,精度大幅超越了其他同样推理速度的模型。在每种标签分类,考标场景中,都有较强的表现。 |
| PP-HGNetV2-B1 | 79.18 | 6.56034 | 27.3099 | 22.6 M | |
| PP-HGNetV2-B2 | 81.74 | 9.60494 | 43.1219 | 39.9 M | |
| PP-HGNetV2-B3 | 82.98 | 11.0042 | 55.1367 | 57.9 M | |
| PP-HGNetV2-B4 | 83.57 | 9.66407 | 54.2462 | 70.4 M | |
| PP-HGNetV2-B5 | 84.75 | 15.7091 | 115.926 | 140.8 M | |
| PP-HGNetV2-B6 | 86.30 | 21.226 | 255.279 | 268.4 M | |
| PP-LCNet_x0_5 | 63.14 | 3.67722 | 6.66857 | 6.7 M | PP-LCNet是百度飞桨视觉团队自研的轻量级骨干网络,它能在不增加推理时间的前提下,进一步提升模型的性能,大幅超越其他轻量级SOTA模型。 |
| PP-LCNet_x0_25 | 51.86 | 2.65341 | 5.81357 | 5.5 M | |
| PP-LCNet_x0_35 | 58.09 | 2.7212 | 6.28944 | 5.9 M | |
| PP-LCNet_x0_75 | 68.18 | 3.91032 | 8.06953 | 8.4 M | |
| PP-LCNet_x1_0 | 71.32 | 3.84845 | 9.23735 | 10.5 M | |
| PP-LCNet_x1_5 | 73.71 | 3.97666 | 12.3457 | 16.0 M | |
| PP-LCNet_x2_0 | 75.18 | 4.07556 | 16.2752 | 23.2 M | |
| PP-LCNet_x2_5 | 76.60 | 4.06028 | 21.5063 | 32.1 M | |
| PP-LCNetV2_base | 77.05 | 5.23428 | 19.6005 | 23.7 M | PP-LCNetV2 图像分类模型是百度飞桨视觉团队自研的 PP-LCNet 的下一代版本,其在 PP-LCNet 的基础上,做了进一步优化和改进,主要使用重参数化策略组合了不同大小卷积核的深度卷积,并优化了点卷积、Shortcut等。在不使用额外数据的前提下,PPLCNetV2_base 模型在图像分类 ImageNet 数据集上能够取得超过 77% 的 Top1 Acc,同时在 Intel CPU 平台的推理时间在 4.4 ms 以下 |
| PP-LCNetV2_large | 78.51 | 6.78335 | 30.4378 | 37.3 M | |
| PP-LCNetV2_small | 73.97 | 3.89762 | 13.0273 | 14.6 M | |
| ResNet18_vd | 72.3 | 3.53048 | 31.3014 | 41.5 M | ResNet 系列模型是在 2015 年提出的,一举在 ILSVRC2015 比赛中取得冠军,top5 错误率为 3.57%。该网络创新性的提出了残差结构,通过堆叠多个残差结构从而构建了 ResNet 网络。实验表明使用残差块可以有效地提升收敛速度和精度。 |
| ResNet18 | 71.0 | 2.4868 | 27.4601 | 41.5 M | |
| ResNet34_vd | 76.0 | 5.60675 | 56.0653 | 77.3 M | |
| ResNet34 | 74.6 | 4.16902 | 51.925 | 77.3 M | |
| ResNet50_vd | 79.1 | 10.1885 | 68.446 | 90.8 M | |
| ResNet50 | 76.5 | 9.62383 | 64.8135 | 90.8 M | |
| ResNet101_vd | 80.2 | 20.0563 | 124.85 | 158.4 M | |
| ResNet101 | 77.6 | 19.2297 | 121.006 | 158.4 M | |
| ResNet152_vd | 80.6 | 29.6439 | 181.678 | 214.3 M | |
| ResNet152 | 78.3 | 30.0461 | 177.707 | 214.2 M | |
| ResNet200_vd | 80.9 | 39.1628 | 235.185 | 266.0 M | |
| StarNet-S1 | 73.6 | 9.895 | 23.0465 | 11.2 M | StarNet 聚焦于研究网络设计中“星操作”(即元素级乘法)的未开发潜力。揭示星操作能够将输入映射到高维、非线性特征空间的能力,这一过程类似于核技巧,但无需扩大网络规模。因此进一步提出了 StarNet,一个简单而强大的原型网络,该网络在紧凑的网络结构和有限的计算资源下,展现出了卓越的性能和低延迟。 |
| StarNet-S2 | 74.8 | 7.91279 | 21.9571 | 14.3 M | |
| StarNet-S3 | 77.0 | 10.7531 | 30.7656 | 22.2 M | |
| StarNet-S4 | 79.0 | 15.2868 | 43.2497 | 28.9 M | |
| SwinTransformer_base_patch4_window7_224 | 83.37 | 16.9848 | 383.83 | 310.5 M | SwinTransformer 是一种新的视觉 Transformer 网络,可以用作计算机视觉领域的通用骨干网路。SwinTransformer 由移动窗口(shifted windows)表示的层次 Transformer 结构组成。移动窗口将自注意计算限制在非重叠的局部窗口上,同时允许跨窗口连接,从而提高了网络性能。 |
| SwinTransformer_base_patch4_window12_384 | 84.17 | 37.2855 | 1178.63 | 311.4 M | |
| SwinTransformer_large_patch4_window7_224 | 86.19 | 27.5498 | 689.729 | 694.8 M | |
| SwinTransformer_large_patch4_window12_384 | 87.06 | 74.1768 | 2105.22 | 696.1 M | |
| SwinTransformer_small_patch4_window7_224 | 83.21 | 16.3982 | 285.56 | 175.6 M | |
| SwinTransformer_tiny_patch4_window7_224 | 81.10 | 8.54846 | 156.306 | 100.1 M | |