10 kuukautta sitten · f06578e56b
--- a/docs/module_usage/tutorials/ocr_modules/formula_recognition.md
+++ b/docs/module_usage/tutorials/ocr_modules/formula_recognition.md
@@ -27,39 +27,23 @@ comments: true
 
				 <td>0.8712</td>
			
 
				 <td>202.25</td>
			
 
				 <td>167.9 M</td>
			
 
				-<td rowspan="2">PP-FormulaNet 是由百度飞桨视觉团队开发的一款先进的公式识别模型。PP-FormulaNet-S 版本采用了 PP-HGNetV2-B4 作为其骨干网络，通过并行掩码和模型蒸馏等技术，大幅提升了模型的推理速度，同时保持了较高的识别精度，特别适合对推理速度有较高要求的应用场景。而 PP-FormulaNet-L 版本则基于 Vary_VIT_B 作为骨干网络，并在大规模公式数据集上进行了深入训练，在复杂公式的识别方面，相较于PP-FormulaNet-S表现出显著的提升。 </td>
			
 
				+<td rowspan="2">PP-FormulaNet 是由百度飞桨视觉团队开发的一款先进的公式识别模型，支持5万个常见LateX源码词汇的识别。PP-FormulaNet-S 版本采用了 PP-HGNetV2-B4 作为其骨干网络，通过并行掩码和模型蒸馏等技术，大幅提升了模型的推理速度，同时保持了较高的识别精度，适用于简单印刷公式、跨行简单印刷公式等场景。而 PP-FormulaNet-L 版本则基于 Vary_VIT_B 作为骨干网络，并在大规模公式数据集上进行了深入训练，在复杂公式的识别方面，相较于PP-FormulaNet-S表现出显著的提升，适用于简单印刷公式、复杂印刷公式、手写公式等场景。 </td>
			
 
				 
			
 
				 </tr>
			
 
				 <td>PP-FormulaNet-L</td><td><a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0rc0/PP-FormulaNet-L_infer.tar">推理模型</a>/<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_pretrained_model/PP-FormulaNet-L_pretrained.pdparams">训练模型</a></td>
			
 
				 <td>0.9213</td>
			
 
				 <td>1976.52</td>
			
 
				 <td>535.2 M</td>
			
 
				-</table>
			
 
				-
			
 
				-<b>注：以上精度指标测量自 PaddleX 内部自建公式识别测试集。所有模型 GPU 推理耗时基于 Tesla V100 GPUs 机器，精度类型为 FP32</b>
			
 
				-
			
 
				-
			
 
				-<table>
			
 
				-<tr>
			
 
				-<th>模型</th><th>模型下载链接</th>
			
 
				-<th>BLEU score</th>
			
 
				-<th>normed edit distance</th>
			
 
				-<th>ExpRate （%）</th>
			
 
				-<th>模型存储大小 (M)</th>
			
 
				-<th>介绍</th>
			
 
				-</tr>
			
 
				 <tr>
			
 
				 <td>LaTeX_OCR_rec</td><td><a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0rc0/LaTeX_OCR_rec_infer.tar">推理模型</a>/<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_pretrained_model/LaTeX_OCR_rec_pretrained.pdparams">训练模型</a></td>
			
 
				-<td>0.8821</td>
			
 
				-<td>0.0823</td>
			
 
				-<td>40.01</td>
			
 
				+<td>0.7163</td>
			
 
				+<td>-</td>
			
 
				 <td>89.7 M</td>
			
 
				-<td>LaTeX-OCR是一种基于自回归大模型的公式识别算法，通过采用 Hybrid ViT 作为骨干网络，transformer作为解码器，显著提升了公式识别的准确性</td>
			
 
				+<td>LaTeX-OCR是一种基于自回归大模型的公式识别算法，通过采用 Hybrid ViT 作为骨干网络，transformer作为解码器，显著提升了公式识别的准确性。</td>
			
 
				 </tr>
			
 
				 </table>
			
 
				 
			
 
				-<b>注：以上精度指标测量自 LaTeX-OCR公式识别测试集。</b>
			
 
				-
			
 
				+<b>注：以上精度指标测量自 PaddleX 内部自建公式识别测试集。LaTeX_OCR_rec在LaTeX-OCR公式识别测试集的BLEU score为 0.8821。所有模型 GPU 推理耗时基于 Tesla V100 GPUs 机器，精度类型为 FP32。</b>
			
 
				 
			
 
				 
			
 
				 ## 三、快速集成
			
@@ -85,11 +69,11 @@ for res in output:
 
				 - `rec_formula`：表示公式图像的预测LaTeX源码
			
 
				 
			
 
				 
			
 
				-可视化图片如下：
			
 
				+可视化图片如下，左侧是待预测的公式图像，右边是预测的结果渲染后的公式图像：
			
 
				 
			
 
				 <img src="https://raw.githubusercontent.com/cuicheng01/PaddleX_doc_images/refs/heads/main/images/modules/formula_recog/general_formula_rec_001_res.png">
			
 
				 
			
 
				-<b> 注：如果您需要对公式识别产线进行可视化，需要运行如下命令来对LaTeX渲染环境进行安装：</b>
			
 
				+<b> 注：如果您需要对公式识别产线进行可视化，需要运行如下命令来对LaTeX渲染环境进行安装。目前公式识别产线可视化只支持Ubuntu环境，其他环境暂不支持：</b>
			
 
				 ```bash
			
 
				 sudo apt-get update
			
 
				 sudo apt-get install texlive texlive-latex-base texlive-latex-extra -y
			
--- a/docs/module_usage/tutorials/video_modules/video_classification.md
+++ b/docs/module_usage/tutorials/video_modules/video_classification.md
@@ -62,7 +62,7 @@ for res in output:
 
				 
			
 
				 运行后，得到的结果为：
			
 
				 ```bash
			
 
				-{'res': "{'input_path': 'general_video_classification_001.mp4', 'class_ids': array([0], dtype=int32), 'scores': array([0.91997], dtype=float32), 'label_names': ['abseiling']}"}
			
 
				+{'res': {'input_path': 'general_video_classification_001.mp4', 'class_ids': [0], 'scores': [0.9199600219726562], 'label_names': ['abseiling']}}
			
 
				 ```
			
 
				 
			
 
				 参数含义如下：
			
@@ -72,11 +72,7 @@ for res in output:
 
				 - `label_names`：表示视频的分类标签名称
			
 
				 
			
 
				 可视化视频如下：
			
 
				-
			
 
				-
			
 
				-
			
 
				 <img src="https://raw.githubusercontent.com/cuicheng01/PaddleX_doc_images/refs/heads/main/images/modules/video_classification/general_video_classification_001.jpg">
			
 
				-
			
 
				 上述Python脚本中，执行了如下几个步骤：
			
 
				 * `create_model`实例化视频分类模型（此处以`PP-TSMv2-LCNetV2_8frames_uniform`为例），具体说明如下：
			
 
				 
			
@@ -105,6 +101,13 @@ for res in output:
 
				 <td>无</td>
			
 
				 <td>无</td>
			
 
				 </tr>
			
 
				+<tr>
			
 
				+<td><code> topk</code></td>
			
 
				+<td>预测结果的前 <code>topk</code> 个类别和对应的分类概率；如果不指定，将默认使用PaddleX官方模型配置</td>
			
 
				+<td><code>int</code></td>
			
 
				+<td>无</td>
			
 
				+<td><code>1</code></td>
			
 
				+</tr>
			
 
				 </table>
			
 
				 
			
 
				 * 调用视频分类模型的`predict`方法进行推理预测，`predict` 方法参数为`input`，用于输入待预测数据，支持多种输入类型，具体说明如下：
			
@@ -143,7 +146,7 @@ for res in output:
 
				 </tr>
			
 
				 <tr>
			
 
				 <td><code> topk</code></td>
			
 
				-<td>预测结果的前 `topk` 个类别和对应的分类概率</td>
			
 
				+<td>预测结果的前 <code>topk</code> 个类别和对应的分类概率；如果不指定，将默认使用 creat_model 指定的 <code>topk</code> 参数，如果creat_model 也没有指定， 则默认使用PaddleX官方模型配置</td>
			
 
				 <td><code>int</code></td>
			
 
				 <td>无</td>
			
 
				 <td><code>1</code></td>
			
@@ -228,7 +231,7 @@ for res in output:
 
				 </tr>
			
 
				 <tr>
			
 
				 <td rowspan = "1"><code>video</code></td>
			
 
				-<td rowspan = "1">获取格式为<code>dict</code>的可视化视频和视频帧率</td>
			
 
				+<td rowspan = "1">获取格式为<code>dict</code>的可视化视频和视频帧率。这里，可视化视频是np.array数组，维度是（视频帧数，视频高度，视频宽度，视频通道数）</td>
			
 
				 </tr>
			
 
				 
			
 
				 </table>
			
--- a/paddlex/inference/models_new/video_classification/processors.py
+++ b/paddlex/inference/models_new/video_classification/processors.py
@@ -387,7 +387,8 @@ class VideoClasTopk:
 
				         preds[0] = self.softmax(preds[0])
			
 
				         indexes = preds[0].argsort(axis=1)[:, -topk:][:, ::-1].astype("int32")
			
 
				         scores = [
			
 
				-            np.around(pred[index], decimals=5) for pred, index in zip(preds[0], indexes)
			
 
				+            list(np.around(pred[index], decimals=5))
			
 
				+            for pred, index in zip(preds[0], indexes)
			
 
				         ]
			
 
				         label_names = [[self.class_id_map[i] for i in index] for index in indexes]
			
 
				         return indexes, scores, label_names