Selaa lähdekoodia

modify doc (#2898)

* modify doc

* modify doc

* modify doc
liuhongen1234567 10 kuukautta sitten
vanhempi
commit
f06578e56b

+ 7 - 23
docs/module_usage/tutorials/ocr_modules/formula_recognition.md

@@ -27,39 +27,23 @@ comments: true
 <td>0.8712</td>
 <td>202.25</td>
 <td>167.9 M</td>
-<td rowspan="2">PP-FormulaNet 是由百度飞桨视觉团队开发的一款先进的公式识别模型。PP-FormulaNet-S 版本采用了 PP-HGNetV2-B4 作为其骨干网络,通过并行掩码和模型蒸馏等技术,大幅提升了模型的推理速度,同时保持了较高的识别精度,特别合对推理速度有较高要求的应用场景。而 PP-FormulaNet-L 版本则基于 Vary_VIT_B 作为骨干网络,并在大规模公式数据集上进行了深入训练,在复杂公式的识别方面,相较于PP-FormulaNet-S表现出显著的提升。 </td>
+<td rowspan="2">PP-FormulaNet 是由百度飞桨视觉团队开发的一款先进的公式识别模型,支持5万个常见LateX源码词汇的识别。PP-FormulaNet-S 版本采用了 PP-HGNetV2-B4 作为其骨干网络,通过并行掩码和模型蒸馏等技术,大幅提升了模型的推理速度,同时保持了较高的识别精度,适用于简单印刷公式、跨行简单印刷公式等场景。而 PP-FormulaNet-L 版本则基于 Vary_VIT_B 作为骨干网络,并在大规模公式数据集上进行了深入训练,在复杂公式的识别方面,相较于PP-FormulaNet-S表现出显著的提升,适用于简单印刷公式、复杂印刷公式、手写公式等场景。 </td>
 
 </tr>
 <td>PP-FormulaNet-L</td><td><a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0rc0/PP-FormulaNet-L_infer.tar">推理模型</a>/<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_pretrained_model/PP-FormulaNet-L_pretrained.pdparams">训练模型</a></td>
 <td>0.9213</td>
 <td>1976.52</td>
 <td>535.2 M</td>
-</table>
-
-<b>注:以上精度指标测量自 PaddleX 内部自建公式识别测试集。所有模型 GPU 推理耗时基于 Tesla V100 GPUs 机器,精度类型为 FP32</b>
-
-
-<table>
-<tr>
-<th>模型</th><th>模型下载链接</th>
-<th>BLEU score</th>
-<th>normed edit distance</th>
-<th>ExpRate (%)</th>
-<th>模型存储大小 (M)</th>
-<th>介绍</th>
-</tr>
 <tr>
 <td>LaTeX_OCR_rec</td><td><a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0rc0/LaTeX_OCR_rec_infer.tar">推理模型</a>/<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_pretrained_model/LaTeX_OCR_rec_pretrained.pdparams">训练模型</a></td>
-<td>0.8821</td>
-<td>0.0823</td>
-<td>40.01</td>
+<td>0.7163</td>
+<td>-</td>
 <td>89.7 M</td>
-<td>LaTeX-OCR是一种基于自回归大模型的公式识别算法,通过采用 Hybrid ViT 作为骨干网络,transformer作为解码器,显著提升了公式识别的准确性</td>
+<td>LaTeX-OCR是一种基于自回归大模型的公式识别算法,通过采用 Hybrid ViT 作为骨干网络,transformer作为解码器,显著提升了公式识别的准确性。</td>
 </tr>
 </table>
 
-<b>注:以上精度指标测量自 LaTeX-OCR公式识别测试集。</b>
-
+<b>注:以上精度指标测量自 PaddleX 内部自建公式识别测试集。LaTeX_OCR_rec在LaTeX-OCR公式识别测试集的BLEU score为 0.8821。所有模型 GPU 推理耗时基于 Tesla V100 GPUs 机器,精度类型为 FP32。</b>
 
 
 ## 三、快速集成
@@ -85,11 +69,11 @@ for res in output:
 - `rec_formula`:表示公式图像的预测LaTeX源码
 
 
-可视化图片如下:
+可视化图片如下,左侧是待预测的公式图像,右边是预测的结果渲染后的公式图像
 
 <img src="https://raw.githubusercontent.com/cuicheng01/PaddleX_doc_images/refs/heads/main/images/modules/formula_recog/general_formula_rec_001_res.png">
 
-<b> 注:如果您需要对公式识别产线进行可视化,需要运行如下命令来对LaTeX渲染环境进行安装:</b>
+<b> 注:如果您需要对公式识别产线进行可视化,需要运行如下命令来对LaTeX渲染环境进行安装。目前公式识别产线可视化只支持Ubuntu环境,其他环境暂不支持:</b>
 ```bash
 sudo apt-get update
 sudo apt-get install texlive texlive-latex-base texlive-latex-extra -y

+ 10 - 7
docs/module_usage/tutorials/video_modules/video_classification.md

@@ -62,7 +62,7 @@ for res in output:
 
 运行后,得到的结果为:
 ```bash
-{'res': "{'input_path': 'general_video_classification_001.mp4', 'class_ids': array([0], dtype=int32), 'scores': array([0.91997], dtype=float32), 'label_names': ['abseiling']}"}
+{'res': {'input_path': 'general_video_classification_001.mp4', 'class_ids': [0], 'scores': [0.9199600219726562], 'label_names': ['abseiling']}}
 ```
 
 参数含义如下:
@@ -72,11 +72,7 @@ for res in output:
 - `label_names`:表示视频的分类标签名称
 
 可视化视频如下:
-
-
-
 <img src="https://raw.githubusercontent.com/cuicheng01/PaddleX_doc_images/refs/heads/main/images/modules/video_classification/general_video_classification_001.jpg">
-
 上述Python脚本中,执行了如下几个步骤:
 * `create_model`实例化视频分类模型(此处以`PP-TSMv2-LCNetV2_8frames_uniform`为例),具体说明如下:
 
@@ -105,6 +101,13 @@ for res in output:
 <td>无</td>
 <td>无</td>
 </tr>
+<tr>
+<td><code> topk</code></td>
+<td>预测结果的前 <code>topk</code> 个类别和对应的分类概率;如果不指定,将默认使用PaddleX官方模型配置</td>
+<td><code>int</code></td>
+<td>无</td>
+<td><code>1</code></td>
+</tr>
 </table>
 
 * 调用视频分类模型的`predict`方法进行推理预测,`predict` 方法参数为`input`,用于输入待预测数据,支持多种输入类型,具体说明如下:
@@ -143,7 +146,7 @@ for res in output:
 </tr>
 <tr>
 <td><code> topk</code></td>
-<td>预测结果的前 `topk` 个类别和对应的分类概率</td>
+<td>预测结果的前 <code>topk</code> 个类别和对应的分类概率;如果不指定,将默认使用 creat_model 指定的 <code>topk</code> 参数,如果creat_model 也没有指定, 则默认使用PaddleX官方模型配置</td>
 <td><code>int</code></td>
 <td>无</td>
 <td><code>1</code></td>
@@ -228,7 +231,7 @@ for res in output:
 </tr>
 <tr>
 <td rowspan = "1"><code>video</code></td>
-<td rowspan = "1">获取格式为<code>dict</code>的可视化视频和视频帧率</td>
+<td rowspan = "1">获取格式为<code>dict</code>的可视化视频和视频帧率。这里,可视化视频是np.array数组,维度是(视频帧数,视频高度,视频宽度,视频通道数)</td>
 </tr>
 
 </table>

+ 2 - 1
paddlex/inference/models_new/video_classification/processors.py

@@ -387,7 +387,8 @@ class VideoClasTopk:
         preds[0] = self.softmax(preds[0])
         indexes = preds[0].argsort(axis=1)[:, -topk:][:, ::-1].astype("int32")
         scores = [
-            np.around(pred[index], decimals=5) for pred, index in zip(preds[0], indexes)
+            list(np.around(pred[index], decimals=5))
+            for pred, index in zip(preds[0], indexes)
         ]
         label_names = [[self.class_id_map[i] for i in index] for index in indexes]
         return indexes, scores, label_names