5 years ago · 7f2eee2279
--- a/docs/apis/datasets.md
+++ b/docs/apis/datasets.md
@@ -79,4 +79,63 @@ paddlex.datasets.SegDataset(data_dir, file_list, label_list, transforms=None, nu
 
															 > * **num_workers** (int|str)：数据集中样本在预处理过程中的线程或进程数。默认为'auto'。当设为'auto'时，根据系统的实际CPU核数设置`num_workers`: 如果CPU核数的一半大于8，则`num_workers`为8，否则为CPU核数的一半。
														
 
															 > * **buffer_size** (int): 数据集中样本在预处理过程中队列的缓存长度，以样本数为单位。默认为100。  
														
 
															 > * **parallel_method** (str): 数据集中样本在预处理过程中并行处理的方式，支持'thread'线程和'process'进程两种方式。默认为'thread'（Windows和Mac下会强制使用thread，该参数无效）。  
														
 
															+> * **shuffle** (bool): 是否需要对数据集中样本打乱顺序。默认为False。 
														
 
															+
														
 
															+## EasyDataCls类
														
 
															+```
														
 
															+paddlex.datasets.SegDataset(data_dir, file_list, label_list, transforms=None, num_workers='auto', buffer_size=100, parallel_method='thread', shuffle=False)
														
 
															+```
														
 
															+读取EasyData图像分类数据集，并对样本进行相应的处理。EasyData图像分类任务数据集格式的介绍可查看文档:[数据集格式说明](../datasets.md)  
														
 
															+
														
 
															+
														
 
															+### 参数
														
 
															+
														
 
															+> * **data_dir** (str): 数据集所在的目录路径。  
														
 
															+> * **file_list** (str): 描述数据集图片文件和对应标注文件的文件路径（文本内每行路径为相对`data_dir`的相对路径）。
														
 
															+> * **label_list** (str): 描述数据集包含的类别信息文件路径。  
														
 
															+> * **transforms** (paddlex.seg.transforms): 数据集中每个样本的预处理/增强算子，详见[paddlex.cls.transforms](./transforms/cls_transforms.md)。  
														
 
															+> * **num_workers** (int|str)：数据集中样本在预处理过程中的线程或进程数。默认为'auto'。当设为'auto'时，根据系统的实际CPU核数设置`num_workers`: 如果CPU核数的一半大于8，则`num_workers`为8，否则为CPU核数的一半。
														
 
															+> * **buffer_size** (int): 数据集中样本在预处理过程中队列的缓存长度，以样本数为单位。默认为100。  
														
 
															+> * **parallel_method** (str): 数据集中样本在预处理过程中并行处理的方式，支持'thread'线程和'process'进程两种方式。默认为'thread'（Windows和Mac下会强制使用thread，该参数无效）。  
														
 
															+> * **shuffle** (bool): 是否需要对数据集中样本打乱顺序。默认为False。
														
 
															+
														
 
															+## EasyDataDet类
														
 
															+
														
 
															+```
														
 
															+paddlex.datasets.EasyDataDet(data_dir, file_list, label_list, transforms=None, num_workers=‘auto’, buffer_size=100, parallel_method='thread', shuffle=False)
														
 
															+```
														
 
															+
														
 
															+读取EasyData目标检测格式数据集，并对样本进行相应的处理，该格式的数据集同样可以应用到实例分割模型的训练中。EasyData目标检测或实例分割任务数据集格式的介绍可查看文档:[数据集格式说明](../datasets.md)  
														
 
															+
														
 
															+
														
 
															+### 参数
														
 
															+
														
 
															+> * **data_dir** (str): 数据集所在的目录路径。  
														
 
															+> * **file_list** (str): 描述数据集图片文件和对应标注文件的文件路径（文本内每行路径为相对`data_dir`的相对路径）。
														
 
															+> * **label_list** (str): 描述数据集包含的类别信息文件路径。  
														
 
															+> * **transforms** (paddlex.det.transforms): 数据集中每个样本的预处理/增强算子，详见[paddlex.det.transforms](./transforms/det_transforms.md)。  
														
 
															+> * **num_workers** (int|str)：数据集中样本在预处理过程中的线程或进程数。默认为'auto'。当设为'auto'时，根据系统的实际CPU核数设置`num_workers`: 如果CPU核数的一半大于8，则`num_workers`为8，否则为CPU核数的一半。
														
 
															+> * **buffer_size** (int): 数据集中样本在预处理过程中队列的缓存长度，以样本数为单位。默认为100。  
														
 
															+> * **parallel_method** (str): 数据集中样本在预处理过程中并行处理的方式，支持'thread'线程和'process'进程两种方式。默认为'thread'（Windows和Mac下会强制使用thread，该参数无效）。  
														
 
															 > * **shuffle** (bool): 是否需要对数据集中样本打乱顺序。默认为False。  
														
 
															+
														
 
															+
														
 
															+## EasyDataSeg类
														
 
															+
														
 
															+```
														
 
															+paddlex.datasets.EasyDataSeg(data_dir, file_list, label_list, transforms=None, num_workers='auto', buffer_size=100, parallel_method='thread', shuffle=False)
														
 
															+```
														
 
															+
														
 
															+读取EasyData语分分割任务数据集，并对样本进行相应的处理。EasyData语义分割任务数据集格式的介绍可查看文档:[数据集格式说明](../datasets.md)  
														
 
															+
														
 
															+
														
 
															+### 参数
														
 
															+
														
 
															+> * **data_dir** (str): 数据集所在的目录路径。  
														
 
															+> * **file_list** (str): 描述数据集图片文件和对应标注文件的文件路径（文本内每行路径为相对`data_dir`的相对路径）。
														
 
															+> * **label_list** (str): 描述数据集包含的类别信息文件路径。  
														
 
															+> * **transforms** (paddlex.seg.transforms): 数据集中每个样本的预处理/增强算子，详见[paddlex.seg.transforms](./transforms/seg_transforms.md)。  
														
 
															+> * **num_workers** (int|str)：数据集中样本在预处理过程中的线程或进程数。默认为'auto'。当设为'auto'时，根据系统的实际CPU核数设置`num_workers`: 如果CPU核数的一半大于8，则`num_workers`为8，否则为CPU核数的一半。
														
 
															+> * **buffer_size** (int): 数据集中样本在预处理过程中队列的缓存长度，以样本数为单位。默认为100。  
														
 
															+> * **parallel_method** (str): 数据集中样本在预处理过程中并行处理的方式，支持'thread'线程和'process'进程两种方式。默认为'thread'（Windows和Mac下会强制使用thread，该参数无效）。  
														
 
															+> * **shuffle** (bool): 是否需要对数据集中样本打乱顺序。默认为False。 
														
--- a/docs/datasets.md
+++ b/docs/datasets.md
@@ -41,8 +41,8 @@ labelA
 
															 labelB
														
 
															 ...
														
 
															 ```
														
 
															-[点击这里](https://bj.bcebos.com/paddlex/datasets/vegetables_cls.tar.gz)，下载蔬菜分类分类数据集
														
 
															-在PaddleX中，使用`paddlex.cv.datasets.ImageNet`([API说明](./apis/datasets.html#imagenet))加载分类数据集
														
 
															+[点击这里](https://bj.bcebos.com/paddlex/datasets/vegetables_cls.tar.gz)，下载蔬菜分类分类数据集。  
														
 
															+在PaddleX中，使用`paddlex.cv.datasets.ImageNet`([API说明](./apis/datasets.html#imagenet))加载分类数据集。
														
 
															 ## 目标检测VOC
														
 
															 目标检测VOC数据集包含图像文件夹、标注信息文件夹、标签文件及图像列表文件。
														
@@ -81,8 +81,8 @@ labelA
 
															 labelB
														
 
															 ...
														
 
															 ```
														
 
															-[点击这里](https://bj.bcebos.com/paddlex/datasets/insect_det.tar.gz)，下载昆虫检测数据集
														
 
															-在PaddleX中，使用`paddlex.cv.datasets.VOCDetection`([API说明](./apis/datasets.html#vocdetection))加载目标检测VOC数据集
														
 
															+[点击这里](https://bj.bcebos.com/paddlex/datasets/insect_det.tar.gz)，下载昆虫检测数据集。  
														
 
															+在PaddleX中，使用`paddlex.cv.datasets.VOCDetection`([API说明](./apis/datasets.html#vocdetection))加载目标检测VOC数据集。
														
 
															 ## 目标检测和实例分割COCO
														
 
															 目标检测和实例分割COCO数据集包含图像文件夹及图像标注信息文件。
														
@@ -135,7 +135,7 @@ labelB
 
															   ]
														
 
															 }
														
 
															 ```
														
 
															-每个字段的含义如下所示：
														
 
															+其中，每个字段的含义如下所示：
														
 
															 | 域名 | 字段名 | 含义 | 数据类型 | 备注 |
														
 
															 |:-----|:--------|:------------|------|:-----|
														
@@ -155,8 +155,8 @@ labelB
 
															 | categories | supercategory | 类别父类的标签名 | str |  |
														
 
															-[点击这里](https://bj.bcebos.com/paddlex/datasets/garbage_ins_det.tar.gz)，下载垃圾实例分割数据集
														
 
															-在PaddleX中，使用`paddlex.cv.datasets.COCODetection`([API说明](./apis/datasets.html#cocodetection))加载COCO格式数据集
														
 
															+[点击这里](https://bj.bcebos.com/paddlex/datasets/garbage_ins_det.tar.gz)，下载垃圾实例分割数据集。  
														
 
															+在PaddleX中，使用`paddlex.cv.datasets.COCODetection`([API说明](./apis/datasets.html#cocodetection))加载COCO格式数据集。
														
 
															 ## 语义分割数据
														
 
															 语义分割数据集包含原图、标注图及相应的文件列表文件。
														
@@ -191,13 +191,176 @@ images/xxx2.png annotations/xxx2.png
 
															 `labels.txt`: 每一行为一个单独的类别，相应的行号即为类别对应的id（行号从0开始)，如下所示：
														
 
															 ```
														
 
															+background
														
 
															 labelA
														
 
															 labelB
														
 
															 ...
														
 
															 ```
														
 
															-标注图像为单通道图像，像素值即为对应的类别,像素标注类别需要从0开始递增，
														
 
															+标注图像为单通道图像，像素值即为对应的类别,像素标注类别需要从0开始递增（一般第一个类别为`background`），
														
 
															 例如0，1，2，3表示有4种类别，标注类别最多为256类。其中可以指定特定的像素值用于表示该值的像素不参与训练和评估（默认为255）。
														
 
															-[点击这里](https://bj.bcebos.com/paddlex/datasets/optic_disc_seg.tar.gz)，下载视盘语义分割数据集
														
 
															-在PaddleX中，使用`paddlex.cv.datasets.SegReader`([API说明](./apis/datasets.html#segreader))加载语义分割数据集
														
 
															+[点击这里](https://bj.bcebos.com/paddlex/datasets/optic_disc_seg.tar.gz)，下载视盘语义分割数据集。  
														
 
															+在PaddleX中，使用`paddlex.cv.datasets.SegReader`([API说明](./apis/datasets.html#segreader))加载语义分割数据集。
														
 
															+
														
 
															+
														
 
															+## 图像分类EasyDataCls
														
 
															+
														
 
															+图像分类EasyDataCls数据集包含存放图像和json文件的文件夹、标签文件及图像列表文件。
														
 
															+参考数据文件结构如下：
														
 
															+```
														
 
															+./dataset/  # 数据集根目录
														
 
															+|--easydata  # 存放图像和json文件的文件夹
														
 
															+|  |--0001.jpg
														
 
															+|  |--0001.json
														
 
															+|  |--0002.jpg
														
 
															+|  |--0002.json
														
 
															+|  └--...
														
 
															+|
														
 
															+|--train_list.txt  # 训练文件列表文件
														
 
															+|
														
 
															+|--val_list.txt  # 验证文件列表文件
														
 
															+|
														
 
															+└--labels.txt  # 标签列表文件
														
 
															+
														
 
															+```
														
 
															+其中，图像文件名应与json文件名一一对应。   
														
 
															+
														
 
															+每个json文件存储于`labels`相关的信息。如下所示：
														
 
															+```
														
 
															+{"labels": [{"name": "labelA"}]}
														
 
															+```
														
 
															+其中，`name`字段代表对应图像的类别。  
														
 
															+
														
 
															+`train_list.txt`和`val_list.txt`文本以空格为分割符分为两列，第一列为图像文件相对于dataset的相对路径，第二列为json文件相对于dataset的相对路径。如下所示：
														
 
															+```
														
 
															+easydata/0001.jpg easydata/0001.json
														
 
															+easydata/0002.jpg easydata/0002.json
														
 
															+...
														
 
															+```
														
 
															+
														
 
															+`labels.txt`: 每一行为一个单独的类别，相应的行号即为类别对应的id（行号从0开始)，如下所示：
														
 
															+```
														
 
															+labelA
														
 
															+labelB
														
 
															+...
														
 
															+```
														
 
															+[点击这里](https://ai.baidu.com/easydata/)，可以标注图像分类EasyDataCls数据集。  
														
 
															+在PaddleX中，使用`paddlex.cv.datasets.EasyDataCls`([API说明](./apis/datasets.html#easydatacls))加载分类数据集。
														
 
															+
														
 
															+
														
 
															+## 目标检测和实例分割EasyDataDet
														
 
															+
														
 
															+目标检测和实例分割EasyDataDet数据集包含存放图像和json文件的文件夹、标签文件及图像列表文件。
														
 
															+参考数据文件结构如下：
														
 
															+```
														
 
															+./dataset/  # 数据集根目录ß
														
 
															+|--easydata  # 存放图像和json文件的文件夹
														
 
															+|  |--0001.jpg
														
 
															+|  |--0001.json
														
 
															+|  |--0002.jpg
														
 
															+|  |--0002.json
														
 
															+|  └--...
														
 
															+|
														
 
															+|--train_list.txt  # 训练文件列表文件
														
 
															+|
														
 
															+|--val_list.txt  # 验证文件列表文件
														
 
															+|
														
 
															+└--labels.txt  # 标签列表文件
														
 
															+
														
 
															+```
														
 
															+其中，图像文件名应与json文件名一一对应。   
														
 
															+
														
 
															+每个json文件存储于`labels`相关的信息。如下所示：
														
 
															+```
														
 
															+"labels": [{"y1": 18, "x2": 883, "x1": 371, "y2": 404, "name": "labelA", 
														
 
															+            "mask": "kVfc0`0Zg0<F7J7I5L5K4L4L4L3N3L3N3L3N2N3M2N2N2N2N2N2N1O2N2O1N2N1O2O1N101N1O2O1N101N10001N101N10001N10001O0O10001O000O100000001O0000000000000000000000O1000001O00000O101O000O101O0O101O0O2O0O101O0O2O0O2N2O0O2O0O2N2O1N1O2N2N2O1N2N2N2N2N2N2M3N3M2M4M2M4M3L4L4L4K6K5J7H9E\\iY1"}, 
														
 
															+           {"y1": 314, "x2": 666, "x1": 227, "y2": 676, "name": "labelB",
														
 
															+            "mask": "mdQ8g0Tg0:G8I6K5J5L4L4L4L4M2M4M2M4M2N2N2N3L3N2N2N2N2O1N1O2N2N2O1N1O2N2O0O2O1N1O2O0O2O0O2O001N100O2O000O2O000O2O00000O2O000000001N100000000000000000000000000000000001O0O100000001O0O10001N10001O0O101N10001N101N101N101N101N2O0O2N2O0O2N2N2O0O2N2N2N2N2N2N2N2N2N3L3N2N3L3N3L4M2M4L4L5J5L5J7H8H;BUcd<"}, 
														
 
															+           ...]}
														
 
															+```
														
 
															+其中，list中的每个元素代表一个标注信息，标注信息中字段的含义如下所示： 
														
 
															+
														
 
															+| 字段名 | 含义 | 数据类型 | 备注 |
														
 
															+|:--------|:------------|------|:-----|
														
 
															+| x1 | 标注框左下角横坐标 | int | |
														
 
															+| y1 | 标注框左下角纵坐标 | int | |
														
 
															+| x2 | 标注框右上角横坐标 | int | |
														
 
															+| y2 | 标注框右上角纵坐标 | int | |
														
 
															+| name | 标注框中物体类标 | str | |
														
 
															+| mask | 分割区域布尔型numpy编码后的字符串 | str | 该字段可以不存在，当不存在时只能进行目标检测 |
														
 
															+
														
 
															+`train_list.txt`和`val_list.txt`文本以空格为分割符分为两列，第一列为图像文件相对于dataset的相对路径，第二列为json文件相对于dataset的相对路径。如下所示：
														
 
															+```
														
 
															+easydata/0001.jpg easydata/0001.json
														
 
															+easydata/0002.jpg easydata/0002.json
														
 
															+...
														
 
															+```
														
 
															+
														
 
															+`labels.txt`: 每一行为一个单独的类别，相应的行号即为类别对应的id（行号从0开始)，如下所示：
														
 
															+```
														
 
															+labelA
														
 
															+labelB
														
 
															+...
														
 
															+```
														
 
															+
														
 
															+[点击这里](https://ai.baidu.com/easydata/)，可以标注图像分类EasyDataDet数据集。  
														
 
															+在PaddleX中，使用`paddlex.cv.datasets.EasyDataDet`([API说明](./apis/datasets.html#easydatadet))加载分类数据集。
														
 
															+
														
 
															+## 语义分割EasyDataSeg
														
 
															+
														
 
															+语义分割EasyDataSeg数据集包含存放图像和json文件的文件夹、标签文件及图像列表文件。
														
 
															+参考数据文件结构如下：
														
 
															+```
														
 
															+./dataset/  # 数据集根目录ß
														
 
															+|--easydata  # 存放图像和json文件的文件夹
														
 
															+|  |--0001.jpg
														
 
															+|  |--0001.json
														
 
															+|  |--0002.jpg
														
 
															+|  |--0002.json
														
 
															+|  └--...
														
 
															+|
														
 
															+|--train_list.txt  # 训练文件列表文件
														
 
															+|
														
 
															+|--val_list.txt  # 验证文件列表文件
														
 
															+|
														
 
															+└--labels.txt  # 标签列表文件
														
 
															+
														
 
															+```
														
 
															+其中，图像文件名应与json文件名一一对应。   
														
 
															+
														
 
															+每个json文件存储于`labels`相关的信息。如下所示：
														
 
															+```
														
 
															+"labels": [{"y1": 18, "x2": 883, "x1": 371, "y2": 404, "name": "labelA", 
														
 
															+            "mask": "kVfc0`0Zg0<F7J7I5L5K4L4L4L3N3L3N3L3N2N3M2N2N2N2N2N2N1O2N2O1N2N1O2O1N101N1O2O1N101N10001N101N10001N10001O0O10001O000O100000001O0000000000000000000000O1000001O00000O101O000O101O0O101O0O2O0O101O0O2O0O2N2O0O2O0O2N2O1N1O2N2N2O1N2N2N2N2N2N2M3N3M2M4M2M4M3L4L4L4K6K5J7H9E\\iY1"}, 
														
 
															+           {"y1": 314, "x2": 666, "x1": 227, "y2": 676, "name": "labelB",
														
 
															+            "mask": "mdQ8g0Tg0:G8I6K5J5L4L4L4L4M2M4M2M4M2N2N2N3L3N2N2N2N2O1N1O2N2N2O1N1O2N2O0O2O1N1O2O0O2O0O2O001N100O2O000O2O000O2O00000O2O000000001N100000000000000000000000000000000001O0O100000001O0O10001N10001O0O101N10001N101N101N101N101N2O0O2N2O0O2N2N2O0O2N2N2N2N2N2N2N2N2N3L3N2N3L3N3L4M2M4L4L5J5L5J7H8H;BUcd<"}, 
														
 
															+           ...]}
														
 
															+```
														
 
															+其中，list中的每个元素代表一个标注信息，标注信息中字段的含义如下所示： 
														
 
															+
														
 
															+| 字段名 | 含义 | 数据类型 | 备注 |
														
 
															+|:--------|:------------|------|:-----|
														
 
															+| x1 | 标注框左下角横坐标 | int | |
														
 
															+| y1 | 标注框左下角纵坐标 | int | |
														
 
															+| x2 | 标注框右上角横坐标 | int | |
														
 
															+| y2 | 标注框右上角纵坐标 | int | |
														
 
															+| name | 标注框中物体类标 | str | |
														
 
															+| mask | 分割区域布尔型numpy编码后的字符串 | str | 该字段必须存在 |
														
 
															+
														
 
															+`train_list.txt`和`val_list.txt`文本以空格为分割符分为两列，第一列为图像文件相对于dataset的相对路径，第二列为json文件相对于dataset的相对路径。如下所示：
														
 
															+```
														
 
															+easydata/0001.jpg easydata/0001.json
														
 
															+easydata/0002.jpg easydata/0002.json
														
 
															+...
														
 
															+```
														
 
															+
														
 
															+`labels.txt`: 每一行为一个单独的类别，相应的行号即为类别对应的id（行号从0开始)，如下所示：
														
 
															+```
														
 
															+labelA
														
 
															+labelB
														
 
															+...
														
 
															+```
														
 
															+
														
 
															+[点击这里](https://ai.baidu.com/easydata/)，可以标注图像分类EasyDataSeg数据集。  
														
 
															+在PaddleX中，使用`paddlex.cv.datasets.EasyDataSeg`([API说明](./apis/datasets.html#easydataseg))加载分类数据集。