5 anni fa · 73c6d4be50
--- a/docs/appendix/model_zoo.md
+++ b/docs/appendix/model_zoo.md
@@ -1,68 +1,104 @@
 
				 # PaddleX模型库
			
 
				 
			
 
				 ## 图像分类模型
			
 
				-> 表中模型相关指标均为在ImageNet数据集上使用PaddlePaddle Python预测接口测试得到（测试GPU型号为Nvidia Tesla P40），预测速度为每张图片预测用时（不包括预处理和后处理），表中符号`-`表示相关指标暂未测试。
			
 
				 
			
 
				+> 表中模型准确率均为在ImageNet数据集上测试所得，表中符号`-`表示相关指标暂未测试，预测速度测试环境如下所示:
			
 
				 
			
 
				-| 模型  | 模型大小 | 预测速度（毫秒） | Top1准确率（%） | Top5准确率（%） |
			
 
				+* CPU的评估环境基于骁龙855（SD855）。
			
 
				+* GPU评估环境基于T4机器，在FP32+TensorRT配置下运行500次测得（去除前10次的warmup时间）。
			
 
				+
			
 
				+### 移动端系列
			
 
				+
			
 
				+| 模型  | 模型大小 | SD855 time(ms) bs=1 | Top1准确率（%） | Top5准确率（%） |
			
 
				+| :----|  :------- | :----------- | :--------- | :--------- |
			
 
				+| [MobileNetV1](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV1_pretrained.tar) | 17.4MB   | 32.523048  | 71.0     | 89.7    |
			
 
				+| [MobileNetV2](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_pretrained.tar) | 15.0MB   | 23.317699  | 72.2     | 90.7    |
			
 
				+| [MobileNetV3_large](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_large_x1_0_pretrained.tar)|  22.8MB   | 19.30835  | 75.3    | 93.2   |
			
 
				+| [MobileNetV3_small](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_small_x1_0_pretrained.tar) |  12.5MB   | 9.2745  | 68.2    | 88.1     |
			
 
				+| [MobileNetV3_large_ssld](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_large_x1_0_ssld_pretrained.tar)|  22.8MB   | 19.30835 | 79.0     | 94.5     |
			
 
				+| [MobileNetV3_small_ssld](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_small_x1_0_ssld_pretrained.tar) |  12.5MB   | 6.5463 | 71.3     | 90.1     |
			
 
				+| [ShuffleNetV2](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_pretrained.tar) | 10.2MB   | 10.941        | 68.8     | 88.5     |
			
 
				+
			
 
				+### 其他系列
			
 
				+
			
 
				+| 模型  | 模型大小 | GPU time(ms) bs=1| Top1准确率（%） | Top5准确率（%） |
			
 
				 | :----|  :------- | :----------- | :--------- | :--------- |
			
 
				-| [ResNet18](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet18_pretrained.tar)| 46.2MB   | 3.72882        | 71.0     | 89.9     |
			
 
				-| [ResNet34](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet34_pretrained.tar)| 87.9MB   | 5.50876        | 74.6    | 92.1    |
			
 
				-| [ResNet50](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_pretrained.tar)| 103.4MB  | 7.76659       | 76.5     | 93.0     |
			
 
				-| [ResNet101](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet101_pretrained.tar) |180.4MB  | 13.80876      | 77.6     | 93.6  |
			
 
				-| [ResNet50_vd](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_pretrained.tar) |103.5MB  | 8.20476       | 79.1     | 94.4     |
			
 
				-| [ResNet101_vd](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet101_vd_pretrained.tar)| 180.5MB  | 14.24643       | 80.2   | 95.0     |
			
 
				-| [ResNet50_vd_ssld](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_ssld_pretrained.tar) |103.5MB  | 7.79264       | 82.4     | 96.1     |
			
 
				-| [ResNet101_vd_ssld](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet101_vd_ssld_pretrained.tar)| 180.5MB  | 13.34580       | 83.7   | 96.7     |
			
 
				-| [DarkNet53](https://paddle-imagenet-models-name.bj.bcebos.com/DarkNet53_ImageNet1k_pretrained.tar)|167.4MB  | 8.82047       | 78.0     | 94.1     |
			
 
				-| [MobileNetV1](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV1_pretrained.tar) | 17.4MB   | 3.42838        | 71.0     | 89.7    |
			
 
				-| [MobileNetV2](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV2_pretrained.tar) | 15.0MB   | 5.92667        | 72.2     | 90.7    |
			
 
				-| [MobileNetV3_large](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_large_x1_0_pretrained.tar)|  22.8MB   | 8.31428        | 75.3    | 93.2   |
			
 
				-| [MobileNetV3_small](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_small_x1_0_pretrained.tar) |  12.5MB   | 7.30689        | 68.2    | 88.1     |
			
 
				-| [MobileNetV3_large_ssld](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_large_x1_0_ssld_pretrained.tar)|  22.8MB   | 8.06651        | 79.0     | 94.5     |
			
 
				-| [MobileNetV3_small_ssld](https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_small_x1_0_ssld_pretrained.tar) |  12.5MB   | 7.08837        | 71.3     | 90.1     |
			
 
				-| [Xception41](https://paddle-imagenet-models-name.bj.bcebos.com/Xception41_deeplab_pretrained.tar) | 109.2MB   | 8.15611      | 79.6    | 94.4     |
			
 
				-| [Xception65](https://paddle-imagenet-models-name.bj.bcebos.com/Xception65_deeplab_pretrained.tar) | 161.6MB  | 13.87017       | 80.3     | 94.5     |
			
 
				-| [DenseNet121](https://paddle-imagenet-models-name.bj.bcebos.com/DenseNet121_pretrained.tar) | 33.1MB   | 17.09874       | 75.7     | 92.6     |
			
 
				-| [DenseNet161](https://paddle-imagenet-models-name.bj.bcebos.com/DenseNet161_pretrained.tar)| 118.0MB  | 22.79690       | 78.6     | 94.1     |
			
 
				-| [DenseNet201](https://paddle-imagenet-models-name.bj.bcebos.com/DenseNet201_pretrained.tar)|  84.1MB   | 25.26089       | 77.6     | 93.7     |
			
 
				-| [ShuffleNetV2](https://paddle-imagenet-models-name.bj.bcebos.com/ShuffleNetV2_pretrained.tar) | 10.2MB   | 15.40138        | 68.8     | 88.5     |
			
 
				-| [HRNet_W18](https://paddle-imagenet-models-name.bj.bcebos.com/HRNet_W18_C_pretrained.tar) | 21.29MB |45.25514  | 76.9 | 93.4 |
			
 
				+| [ResNet18](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet18_pretrained.tar)| 46.2MB   | 1.45606       | 71.0     | 89.9     |
			
 
				+| [ResNet34](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet34_pretrained.tar)| 87.9MB   | 2.34957        | 74.6    | 92.1    |
			
 
				+| [ResNet50](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_pretrained.tar)| 103.4MB  | 3.47712       | 76.5     | 93.0     |
			
 
				+| [ResNet101](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet101_pretrained.tar) |180.4MB  | 6.07125      | 77.6     | 93.6  |
			
 
				+| [ResNet50_vd](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_pretrained.tar) |103.5MB  | 3.53131       | 79.1     | 94.4     |
			
 
				+| [ResNet101_vd](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet101_vd_pretrained.tar)| 180.5MB  | 6.11704       | 80.2   | 95.0     |
			
 
				+| [ResNet50_vd_ssld](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_ssld_pretrained.tar) |103.5MB  | 3.53131       | 82.4     | 96.1     |
			
 
				+| [ResNet101_vd_ssld](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet101_vd_ssld_pretrained.tar)| 180.5MB  | 6.11704       | 83.7   | 96.7     |
			
 
				+| [DarkNet53](https://paddle-imagenet-models-name.bj.bcebos.com/DarkNet53_ImageNet1k_pretrained.tar)|167.4MB  | -       | 78.0     | 94.1     |
			
 
				+| [Xception41](https://paddle-imagenet-models-name.bj.bcebos.com/Xception41_deeplab_pretrained.tar) | 109.2MB   | 4.96939      | 79.6    | 94.4     |
			
 
				+| [Xception65](https://paddle-imagenet-models-name.bj.bcebos.com/Xception65_deeplab_pretrained.tar) | 161.6MB  | 7.26158       | 80.3     | 94.5     |
			
 
				+| [DenseNet121](https://paddle-imagenet-models-name.bj.bcebos.com/DenseNet121_pretrained.tar) | 33.1MB   | 4.40447       | 75.7     | 92.6     |
			
 
				+| [DenseNet161](https://paddle-imagenet-models-name.bj.bcebos.com/DenseNet161_pretrained.tar)| 118.0MB  | 10.39152       | 78.6     | 94.1     |
			
 
				+| [DenseNet201](https://paddle-imagenet-models-name.bj.bcebos.com/DenseNet201_pretrained.tar)|  84.1MB   | 8.20652       | 77.6     | 93.7     |
			
 
				+| [HRNet_W18](https://paddle-imagenet-models-name.bj.bcebos.com/HRNet_W18_C_pretrained.tar) | 21.29MB | 7.40636  | 76.9 | 93.4 |
			
 
				 | [AlexNet](https://paddle-imagenet-models-name.bj.bcebos.com/AlexNet_pretrained.tar) | 244.4MB | - | 56.7 | 79.2 |
			
 
				 
			
 
				 ## 目标检测模型
			
 
				 
			
 
				-> 表中模型相关指标均为在MSCOCO数据集上使用PaddlePaddle Python预测接口测试得到（测试GPU型号为Nvidia Tesla V100测试得到），表中符号`-`表示相关指标暂未测试。
			
 
				-
			
 
				-| 模型    | 模型大小    | 预测时间(毫秒) | BoxAP（%） |
			
 
				+> 表中模型精度BoxAP通过`evaluate()`接口测试MSCOCO验证集得到，符号`-`表示相关指标暂未测试，预测时间在以下环境测试所的：
			
 
				+
			
 
				+- 测试环境:
			
 
				+  - CUDA 9.0
			
 
				+  - CUDNN 7.5
			
 
				+  - PaddlePaddle v1.6
			
 
				+  - TensorRT-5.1.2.2
			
 
				+  - GPU分别为: Tesla V100
			
 
				+- 测试方式:
			
 
				+  - 为了方便比较不同模型的推理速度，输入采用同样大小的图片，为 3x640x640。
			
 
				+  - Batch Size=1
			
 
				+  - 去掉前10轮warmup时间，测试100轮的平均时间，单位ms/image，包括输入数据拷贝至GPU的时间、计算时间、数据拷贝至CPU的时间。
			
 
				+  - 采用Fluid C++预测引擎，开启FP32 TensorRT配置。
			
 
				+  - 测试时开启了 FLAGS_cudnn_exhaustive_search=True，使用exhaustive方式搜索卷积计算算法。
			
 
				+
			
 
				+| 模型    | 模型大小    | 预测时间(ms/image) | BoxAP（%） |
			
 
				 |:-------|:-----------|:-------------|:----------|
			
 
				-|[FasterRCNN-ResNet18-FPN](https://bj.bcebos.com/paddlex/pretrained_weights/faster_rcnn_r18_fpn_1x.tar) | 173.2M | - | 32.6 |
			
 
				-|[FasterRCNN-ResNet50](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r50_1x.tar)|136.0MB| 197.715 | 35.2 |
			
 
				-|[FasterRCNN-ResNet50_vd](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r50_vd_1x.tar)| 136.1MB | 475.700 | 36.4 |
			
 
				-|[FasterRCNN-ResNet101](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r101_1x.tar)| 212.5MB | 582.911 | 38.3 |
			
 
				-|[FasterRCNN-ResNet50-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r50_fpn_1x.tar)| 167.7MB | 83.189 | 37.2 |
			
 
				-|[FasterRCNN-ResNet50_vd-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r50_vd_fpn_2x.tar)|167.8MB | 128.277 | 38.9 |
			
 
				-|[FasterRCNN-ResNet101-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r101_fpn_1x.tar)| 244.2MB | 119.788 | 38.7 |
			
 
				-|[FasterRCNN-ResNet101_vd-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r101_vd_fpn_2x.tar) |244.3MB | 156.097 | 40.5 |
			
 
				-|[FasterRCNN-HRNet_W18-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_hrnetv2p_w18_1x.tar) |115.5MB | 81.592 | 36 |
			
 
				+|[FasterRCNN-ResNet18-FPN](https://bj.bcebos.com/paddlex/pretrained_weights/faster_rcnn_r18_fpn_1x.tar) | 173.2MB | - | 32.6 |
			
 
				+|[FasterRCNN-ResNet50](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r50_1x.tar)|136.0MB| 146.124 | 35.2 |
			
 
				+|[FasterRCNN-ResNet50_vd](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r50_vd_1x.tar)| 136.1MB | 144.767 | 36.4 |
			
 
				+|[FasterRCNN-ResNet101](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r101_1x.tar)| 212.5MB | 150.985 | 38.3 |
			
 
				+|[FasterRCNN-ResNet50-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r50_fpn_1x.tar)| 167.7MB | 24.758 | 37.2 |
			
 
				+|[FasterRCNN-ResNet50_vd-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r50_vd_fpn_2x.tar)|167.8MB | 25.292 | 38.9 |
			
 
				+|[FasterRCNN-ResNet101-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r101_fpn_1x.tar)| 244.2MB | 30.331 | 38.7 |
			
 
				+|[FasterRCNN-ResNet101_vd-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_r101_vd_fpn_2x.tar) |244.3MB | 29.969 | 40.5 |
			
 
				+|[FasterRCNN-HRNet_W18-FPN](https://paddlemodels.bj.bcebos.com/object_detection/faster_rcnn_hrnetv2p_w18_1x.tar) |115.5MB | - | 36 |
			
 
				 |[PPYOLO](https://paddlemodels.bj.bcebos.com/object_detection/ppyolo_2x.pdparams) | 329.1MB | - |45.9 |
			
 
				-|[YOLOv3-DarkNet53](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_darknet.tar)|249.2MB | 42.672 | 38.9 |
			
 
				-|[YOLOv3-MobileNetV1](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_mobilenet_v1.tar) |99.2MB | 15.442 | 29.3 |
			
 
				-|[YOLOv3-MobileNetV3_large](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_mobilenet_v3.pdparams)|100.7MB | 143.322 | 31.6 |
			
 
				-| [YOLOv3-ResNet34](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r34.tar)|170.3MB | 23.185 | 36.2 |
			
 
				+|[YOLOv3-DarkNet53](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_darknet.tar)|249.2MB | 20.252 | 38.9 |
			
 
				+|[YOLOv3-MobileNetV1](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_mobilenet_v1.tar) |99.2MB | 11.834 | 29.3 |
			
 
				+|[YOLOv3-MobileNetV3_large](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_mobilenet_v3.pdparams)|100.7MB | - | 31.6 |
			
 
				+| [YOLOv3-ResNet34](https://paddlemodels.bj.bcebos.com/object_detection/yolov3_r34.tar)|170.3MB | 14.125 | 36.2 |
			
 
				 
			
 
				 ## 实例分割模型
			
 
				 
			
 
				-> 预测时间是在一张Nvidia Tesla V100的GPU上通过'evaluate()'接口测试MSCOCO验证集得到，包括数据加载、网络前向执行和后处理, batch size是1，表中符号`-`表示相关指标暂未测试。
			
 
				+> 表中模型精度BoxAP/MaskAP通过`evaluate()`接口测试MSCOCO验证集得到，符号`-`表示相关指标暂未测试，预测时间在以下环境测试所的
			
 
				+
			
 
				+- 测试环境:
			
 
				+  - CUDA 9.0
			
 
				+  - CUDNN 7.5
			
 
				+  - PaddlePaddle v1.6
			
 
				+  - TensorRT-5.1.2.2
			
 
				+  - GPU分别为: Tesla V100
			
 
				+- 测试方式:
			
 
				+  - 为了方便比较不同模型的推理速度，输入采用同样大小的图片，为 3x640x640。
			
 
				+  - Batch Size=1
			
 
				+  - 去掉前10轮warmup时间，测试100轮的平均时间，单位ms/image，包括输入数据拷贝至GPU的时间、计算时间、数据拷贝至CPU的时间。
			
 
				+  - 采用Fluid C++预测引擎，开启FP32 TensorRT配置。
			
 
				+  - 测试时开启了 FLAGS_cudnn_exhaustive_search=True，使用exhaustive方式搜索卷积计算算法。
			
 
				 
			
 
				 | 模型    | 模型大小    | 预测时间(毫秒) | BoxAP (%) | MaskAP (%)  |
			
 
				 |:-------|:-----------|:-------------|:----------|:----------|
			
 
				 |[MaskRCNN-ResNet18-FPN](https://bj.bcebos.com/paddlex/pretrained_weights/mask_rcnn_r18_fpn_1x.tar) | 189.1MB | - | 33.6 | 30.5 |
			
 
				-|[MaskRCNN-ResNet50](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r50_2x.tar) | 143.9MB | 87 | 38.2  | 33.4 |
			
 
				-|[MaskRCNN-ResNet50-FPN](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r50_fpn_2x.tar)| 177.7MB | 63.9 | 38.7 | 34.7 |
			
 
				-|[MaskRCNN-ResNet50_vd-FPN](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r50_vd_fpn_2x.tar) | 177.7MB | 63.1 | 39.8 | 35.4 |
			
 
				-|[MaskRCNN-ResNet101-FPN](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r101_fpn_1x.tar) | 253.6MB | 77 | 39.5 | 35.2 |
			
 
				-|[MaskRCNN-ResNet101_vd-FPN](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r101_vd_fpn_1x.tar) | 253.7MB | 76.4 | 41.4 | 36.8 |
			
 
				+|[MaskRCNN-ResNet50](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r50_2x.tar) | 143.9MB | 159.527 | 38.2  | 33.4 |
			
 
				+|[MaskRCNN-ResNet50-FPN](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r50_fpn_2x.tar)| 177.7MB | 83.567 | 38.7 | 34.7 |
			
 
				+|[MaskRCNN-ResNet50_vd-FPN](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r50_vd_fpn_2x.tar) | 177.7MB | 97.929 | 39.8 | 35.4 |
			
 
				+|[MaskRCNN-ResNet101-FPN](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r101_fpn_1x.tar) | 253.6MB | 97.929 | 39.5 | 35.2 |
			
 
				+|[MaskRCNN-ResNet101_vd-FPN](https://paddlemodels.bj.bcebos.com/object_detection/mask_rcnn_r101_vd_fpn_1x.tar) | 253.7MB | 97.647 | 41.4 | 36.8 |
			
 
				 |[MaskRCNN-HRNet_W18-FPN](https://bj.bcebos.com/paddlex/pretrained_weights/mask_rcnn_hrnetv2p_w18_2x.tar) | 120.7MB | - | 38.7 | 34.7 |
			
 
				 
			
 
				 
			
@@ -84,5 +120,5 @@
 
				 | [DeepLabv3_MobileNetV3_large_x1_0_ssld](https://paddleseg.bj.bcebos.com/models/deeplabv3p_mobilenetv3_large_cityscapes.tar.gz) | 9.3MB | - | 73.28 |
			
 
				 | [DeepLabv3_MobileNetv2_x1.0](https://paddleseg.bj.bcebos.com/models/mobilenet_cityscapes.tgz) | 14.7MB | - | 69.8 |
			
 
				 | [DeepLabv3_Xception65](https://paddleseg.bj.bcebos.com/models/xception65_bn_cityscapes.tgz) | 329.3MB | - | 79.3 |
			
 
				-| [HRNet_W18](https://paddleseg.bj.bcebos.com/models/hrnet_w18_bn_cityscapes.tgz) | 77.3MB |  | 79.36 |
			
 
				-| [Fast-SCNN](https://paddleseg.bj.bcebos.com/models/fast_scnn_cityscape.tar) | 9.8MB |  | 69.64 |
			
 
				+| [HRNet_W18](https://paddleseg.bj.bcebos.com/models/hrnet_w18_bn_cityscapes.tgz) | 77.3MB | - | 79.36 |
			
 
				+| [Fast-SCNN](https://paddleseg.bj.bcebos.com/models/fast_scnn_cityscape.tar) | 9.8MB | - | 69.64 |
			
--- a/docs/examples/solutions.md
+++ b/docs/examples/solutions.md
@@ -8,20 +8,20 @@ PaddleX针对图像分类、目标检测、实例分割和语义分割4种视觉
 
				 ![](./images/image_classification.png)
			
 
				 
			
 
				 对于图像分类任务，针对不同的应用场景，PaddleX提供了百度改进的模型，见下表所示:
			
 
				-> 表中GPU预测速度是使用PaddlePaddle Python预测接口测试得到（测试GPU型号为Nvidia Tesla P40）。
			
 
				-> 表中CPU预测速度 (测试CPU型号为)。
			
 
				-> 表中骁龙855预测速度是使用处理器为骁龙855的手机测试得到。
			
 
				-> 测速时模型输入大小为224 x 224，Top1准确率为ImageNet-1000数据集上评估所得。
			
 
				-
			
 
				-|    模型    |  模型特点 | 存储体积 | GPU预测速度（毫秒） | CPU(x86)预测速度（毫秒） | 骁龙855(ARM)预测速度 （毫秒）| Top1准确率 |
			
 
				-| :--------- | :------  | :---------- | :-----------| :-------------  | :-------------  |:--- |
			
 
				-| MobileNetV3_small_ssld | 轻量高速，适用于追求高速的实时移动端场景 | 12.5MB | 7.08837 | - | 6.546 | 71.3.0% |
			
 
				-| ShuffleNetV2 | 轻量级模型，精度相对偏低，适用于要求更小存储体积的实时移动端场景 | 10.2MB | 15.40 | - | 10.941 | 68.8% |
			
 
				-| MobileNetV3_large_ssld | 轻量级模型，在存储方面优势不大，在速度和精度上表现适中，适合于移动端场景 | 22.8MB | 8.06651 | - | 19.803 | 79.0% |
			
 
				-| MobileNetV2 | 轻量级模型，适用于使用GPU预测的移动端场景 | 15.0MB | 5.92667 | - | 23.318| 72.2 % |
			
 
				-| ResNet50_vd_ssld | 高精度模型，预测时间较短，适用于大多数的服务器端场景 | 103.5MB | 7.79264 | - | - | 82.4% |
			
 
				-| ResNet101_vd_ssld | 超高精度模型，预测时间相对较长，适用于有大数据量时的服务器端场景 | 180.5MB | 13.34580 | - | -| 83.7% |
			
 
				-| Xception65 | 超高精度模型，预测时间更长，在处理较大数据量时有较高的精度，适用于服务器端场景 | 161.6MB | 13.87017 | - | - | 80.3% |
			
 
				+
			
 
				+> * GPU预测速度的评估环境基于T4机器，在FP32+TensorRT配置下运行500次测得（去除前10次的warmup时间）。
			
 
				+> * CPU预测速度的的评估环境基于骁龙855（SD855）。
			
 
				+> * Top1准确率为ImageNet-1000数据集上评估所得。
			
 
				+
			
 
				+|    模型    |  模型特点 | 存储体积 | GPU time(ms) bs=1 | SD855 time(ms) bs=1 | Top1准确率 |
			
 
				+| :--------- | :------  | :---------- | :-----------| :-------------  | :--- |
			
 
				+| MobileNetV3_small_ssld | 轻量高速，适用于追求高速的实时移动端场景 | 12.5MB | - | 6.5463 | 71.3.0% |
			
 
				+| ShuffleNetV2 | 轻量级模型，精度相对偏低，适用于要求更小存储体积的实时移动端场景 | 10.2MB | - | 10.941 | 68.8% |
			
 
				+| MobileNetV3_large_ssld | 轻量级模型，在存储方面优势不大，在速度和精度上表现适中，适合于移动端场景 | 22.8MB | - | 19.30835 | 79.0% |
			
 
				+| MobileNetV2 | 轻量级模型，适用于使用GPU预测的移动端场景 | 15.0MB | - | 23.317699 | 72.2 % |
			
 
				+| ResNet50_vd_ssld | 高精度模型，预测时间较短，适用于大多数的服务器端场景 | 103.5MB | 3.47712 | - | 82.4% |
			
 
				+| ResNet101_vd_ssld | 超高精度模型，预测时间相对较长，适用于有大数据量时的服务器端场景 | 180.5MB | 6.11704 | - | 83.7% |
			
 
				+| Xception65 | 超高精度模型，预测时间更长，在处理较大数据量时有较高的精度，适用于服务器端场景 | 161.6MB | 7.26158 | - | 80.3% |
			
 
				 
			
 
				 包括上述模型，PaddleX支持近20种图像分类模型，其余模型可参考[PaddleX模型库](../appendix/model_zoo.md)
			
 
				 
			
@@ -32,20 +32,19 @@ PaddleX针对图像分类、目标检测、实例分割和语义分割4种视觉
 
				 ![](./images/object_detection.png)
			
 
				 
			
 
				 对于目标检测，针对不同的应用场景，PaddleX提供了主流的YOLOv3模型和Faster-RCNN模型，见下表所示
			
 
				-> 表中GPU预测速度是使用PaddlePaddle Python预测接口测试得到（测试GPU型号为Nvidia Tesla P40）。
			
 
				-> 表中CPU预测速度 (测试CPU型号为)。
			
 
				-> 表中骁龙855预测速度是使用处理器为骁龙855的手机测试得到。
			
 
				-> 测速时YOLOv3的输入大小为608 x 608，FasterRCNN的输入大小为800 x 1333，Box mmAP为COCO2017数据集上评估所得。
			
 
				-
			
 
				-|   模型   | 模型特点 | 存储体积  | GPU预测速度 | CPU(x86)预测速度（毫秒） | 骁龙855(ARM)预测速度 （毫秒）| Box mmAP |
			
 
				-| :------- | :-------  | :---------  | :---------- | :-------------  | :-------------  |:--- |
			
 
				-| YOLOv3-MobileNetV3_larget | 适用于追求高速预测的移动端场景 | 100.7MB | 143.322 | - | - | 31.6 |
			
 
				-| YOLOv3-MobileNetV1 | 精度相对偏低，适用于追求高速预测的服务器端场景 | 99.2MB| 15.422 | - | - | 29.3 |
			
 
				-| YOLOv3-DarkNet53 | 在预测速度和模型精度上都有较好的表现，适用于大多数的服务器端场景| 249.2MB | 42.672 | - | - | 38.9 |
			
 
				-| PPYOLO | 预测速度和模型精度都比YOLOv3-DarkNet53优异，适用于大多数的服务器端场景 | 329.1MB | - | - | - | 45.9 |
			
 
				-| FasterRCNN-ResNet50-FPN | 经典的二阶段检测器，预测速度相对较慢，适用于重视模型精度的服务器端场景 | 167.MB | 83.189 | - | -| 37.2 |
			
 
				-| FasterRCNN-HRNet_W18-FPN | 适用于对图像分辨率较为敏感、对目标细节预测要求更高的服务器端场景 | 115.5MB | 81.592 | - | - | 36 |
			
 
				-| FasterRCNN-ResNet101_vd-FPN | 超高精度模型，预测时间更长，在处理较大数据量时有较高的精度，适用于服务器端场景 | 244.3MB | 156.097 | - | - | 40.5 |
			
 
				+
			
 
				+> * GPU预测速度评估环境基于Tesla V100机器，在FP32+TensorRT配置下运行100次测得（去除前10次warmup时间)。
			
 
				+> * Box mmAP为MSCOCO数据集上评估所得。
			
 
				+
			
 
				+|   模型   | 模型特点 | 存储体积  |  GPU time(ms) bs=1 | Box mmAP |
			
 
				+| :------- | :-------  | :---------  | :---------- | :--- |
			
 
				+| YOLOv3-MobileNetV3_large | 适用于追求高速预测的移动端场景 | 100.7MB | - | 31.6 |
			
 
				+| YOLOv3-MobileNetV1 | 精度相对偏低，适用于追求高速预测的服务器端场景 | 99.2MB| 11.834 | 29.3 |
			
 
				+| YOLOv3-DarkNet53 | 在预测速度和模型精度上都有较好的表现，适用于大多数的服务器端场景| 249.2MB | 20.252 | 38.9 |
			
 
				+| PPYOLO | 预测速度和模型精度都比YOLOv3-DarkNet53优异，适用于大多数的服务器端场景 | 329.1MB | - | 45.9 |
			
 
				+| FasterRCNN-ResNet50-FPN | 经典的二阶段检测器，预测速度相对较慢，适用于重视模型精度的服务器端场景 | 167.MB | 24.758 | 37.2 |
			
 
				+| FasterRCNN-HRNet_W18-FPN | 适用于对图像分辨率较为敏感、对目标细节预测要求更高的服务器端场景 | 115.5MB | - | 36 |
			
 
				+| FasterRCNN-ResNet101_vd-FPN | 超高精度模型，预测时间更长，在处理较大数据量时有较高的精度，适用于服务器端场景 | 244.3MB | 29.969 | 40.5 |
			
 
				 
			
 
				 除上述模型外，YOLOv3和Faster RCNN还支持其他backbone，详情可参考[PaddleX模型库](../appendix/model_zoo.md)
			
 
				 
			
@@ -55,16 +54,15 @@ PaddleX针对图像分类、目标检测、实例分割和语义分割4种视觉
 
				 ![](./images/instance_segmentation.png)
			
 
				 
			
 
				 PaddleX目前提供了实例分割MaskRCNN模型，支持5种不同的backbone网络，详情可参考[PaddleX模型库](../appendix/model_zoo.md)
			
 
				-> 表中GPU预测速度是使用PaddlePaddle Python预测接口测试得到（测试GPU型号为Nvidia Tesla P40）。
			
 
				-> 表中CPU预测速度 (测试CPU型号为)。
			
 
				-> 表中骁龙855预测速度是使用处理器为骁龙855的手机测试得到。
			
 
				-> 测速时MaskRCNN的输入大小为800 x 1333，Box mmAP和Seg mmAP为COCO2017数据集上评估所得。
			
 
				 
			
 
				-|  模型 | 模型特点 | 存储体积 | GPU预测速度 | CPU(x86)预测速度（毫秒） | 骁龙855(ARM)预测速度 （毫秒）| Box mmAP | Seg mmAP |
			
 
				-| :---- | :------- | :---------- | :---------- | :----- | :----- | :--- |:--- |
			
 
				-| MaskRCNN-HRNet_W18-FPN | 适用于对图像分辨率较为敏感、对目标细节预测要求更高的服务器端场景 | 143.9MB | - | - | - | 38.2 | 33.4 |
			
 
				-| MaskRCNN-ResNet50-FPN | 精度较高，适合大多数的服务器端场景| 177.7M | - | - | - | 38.7 | 34.7 |
			
 
				-| MaskRCNN-ResNet101_vd-FPN | 高精度但预测时间更长，在处理较大数据量时有较高的精度，适用于服务器端场景 | 253.7M | - | - | - | 41.4 | 36.8 |
			
 
				+> * GPU预测速度评估环境基于Tesla V100机器，在FP32+TensorRT配置下运行100次测得（去除前10次warmup时间)。
			
 
				+> * Box mmAP为MSCOCO数据集上评估所得。
			
 
				+
			
 
				+|  模型 | 模型特点 | 存储体积 | GPU time(ms) bs=1 | Box mmAP | Seg mmAP |
			
 
				+| :---- | :------- | :---------- | :---------- | :--- |:--- |
			
 
				+| MaskRCNN-HRNet_W18-FPN | 适用于对图像分辨率较为敏感、对目标细节预测要求更高的服务器端场景 | 143.9MB | - | 38.2 | 33.4 |
			
 
				+| MaskRCNN-ResNet50-FPN | 精度较高，适合大多数的服务器端场景| 177.7M | 83.567 | 38.7 | 34.7 |
			
 
				+| MaskRCNN-ResNet101_vd-FPN | 高精度但预测时间更长，在处理较大数据量时有较高的精度，适用于服务器端场景 | 253.7M | 97.647 | 41.4 | 36.8 |
			
 
				 
			
 
				 ## 语义分割
			
 
				 语义分割用于对图像做像素级的分类，应用在人像分类、遥感图像识别等场景。  
			
@@ -72,16 +70,14 @@ PaddleX目前提供了实例分割MaskRCNN模型，支持5种不同的backbone
 
				 ![](./images/semantic_segmentation.png)
			
 
				 
			
 
				 对于语义分割，PaddleX也针对不同的应用场景，提供了不同的模型选择，如下表所示
			
 
				-> 表中GPU预测速度是使用PaddlePaddle Python预测接口测试得到（测试GPU型号为Nvidia Tesla P40）。
			
 
				-> 表中CPU预测速度 (测试CPU型号为)。
			
 
				-> 表中骁龙855预测速度是使用处理器为骁龙855的手机测试得到。
			
 
				-> 测速时模型的输入大小为1024 x 2048，mIoU为Cityscapes数据集上评估所得。
			
 
				-
			
 
				-| 模型 | 模型特点 | 存储体积 | GPU预测速度 | CPU(x86)预测速度（毫秒） | 骁龙855(ARM)预测速度 （毫秒）| mIoU |
			
 
				-| :---- | :------- | :---------- | :---------- | :----- | :----- |:--- |
			
 
				-| DeepLabv3p-MobileNetV2_x1.0 | 轻量级模型，适用于移动端场景| - | - | - | 69.8% |
			
 
				-| DeepLabv3-MobileNetV3_large_x1_0_ssld | 轻量级模型，适用于移动端场景| - | - | - | 73.28% |
			
 
				-| HRNet_W18_Small_v1 | 轻量高速，适用于移动端场景 | - | - | - | - |
			
 
				-| FastSCNN | 轻量高速，适用于追求高速预测的移动端或服务器端场景 | - | - | - | 69.64 |
			
 
				-| HRNet_W18 | 高精度模型，适用于对图像分辨率较为敏感、对目标细节预测要求更高的服务器端场景| - | - | - | 79.36 |
			
 
				-| DeepLabv3p-Xception65 | 高精度但预测时间更长，在处理较大数据量时有较高的精度，适用于服务器且背景复杂的场景| - | - | - | 79.3% |
			
 
				+
			
 
				+> * mIoU为Cityscapes数据集上评估所得。
			
 
				+
			
 
				+| 模型 | 模型特点 | 存储体积 | 预测速度（毫秒） | mIoU |
			
 
				+| :---- | :------- | :---------- | :--- | :--- |
			
 
				+| DeepLabv3p-MobileNetV2_x1.0 | 轻量级模型，适用于移动端场景| 14.7MB | - |  69.8% |
			
 
				+| DeepLabv3-MobileNetV3_large_x1_0_ssld | 轻量级模型，适用于移动端场景| 9.3MB | - | 73.28% |
			
 
				+| HRNet_W18_Small_v1 | 轻量高速，适用于移动端场景 | - | - | - |
			
 
				+| FastSCNN | 轻量高速，适用于追求高速预测的移动端或服务器端场景 | 9.8MB | - | 69.64 |
			
 
				+| HRNet_W18 | 高精度模型，适用于对图像分辨率较为敏感、对目标细节预测要求更高的服务器端场景| 77.3MB | - | 79.36 |
			
 
				+| DeepLabv3p-Xception65 | 高精度但预测时间更长，在处理较大数据量时有较高的精度，适用于服务器且背景复杂的场景| 329.3MB | - | 79.3% |
			
--- a/paddlex/cv/datasets/coco.py
+++ b/paddlex/cv/datasets/coco.py
@@ -131,6 +131,9 @@ class CocoDetection(VOCDetection):
 
				                 'difficult': difficult
			
 
				             }
			
 
				 
			
 
				+            if None in gt_poly:
			
 
				+                del label_info['gt_poly']
			
 
				+
			
 
				             coco_rec = (im_info, label_info)
			
 
				             self.file_list.append([im_fname, coco_rec])
			
 
				         if not len(self.file_list) > 0:
			
--- a/paddlex/cv/transforms/cls_transforms.py
+++ b/paddlex/cv/transforms/cls_transforms.py
@@ -72,7 +72,7 @@ class Compose(ClsTransform):
 
				                     format(len(im.shape)))
			
 
				         else:
			
 
				             try:
			
 
				-                im = cv2.imread(im)
			
 
				+                im = cv2.imread(im).astype('float32')
			
 
				             except:
			
 
				                 raise TypeError('Can\'t read The image file {}!'.format(im))
			
 
				         im = im.astype('float32')
			
--- a/paddlex/cv/transforms/det_transforms.py
+++ b/paddlex/cv/transforms/det_transforms.py
@@ -109,7 +109,7 @@ class Compose(DetTransform):
 
				                 im = im_file
			
 
				             else:
			
 
				                 try:
			
 
				-                    im = cv2.imread(im_file)
			
 
				+                    im = cv2.imread(im_file).astype('float32')
			
 
				                 except:
			
 
				                     raise TypeError('Can\'t read The image file {}!'.format(
			
 
				                         im_file))
			
--- a/paddlex/cv/transforms/seg_transforms.py
+++ b/paddlex/cv/transforms/seg_transforms.py
@@ -98,7 +98,7 @@ class Compose(SegTransform):
 
				                     format(len(im.shape)))
			
 
				         else:
			
 
				             try:
			
 
				-                im = Compose.read_img(im)
			
 
				+                im = Compose.read_img(im).astype('float32')
			
 
				             except:
			
 
				                 raise ValueError('Can\'t read The image file {}!'.format(im))
			
 
				         im = im.astype('float32')