|
|
@@ -5,7 +5,8 @@
|
|
|
### 显存优化参数
|
|
|
> [!TIP]
|
|
|
> sglang加速模式目前支持在最低8G显存的Turing架构显卡上运行,但在显存<24G的显卡上可能会遇到显存不足的问题, 可以通过使用以下参数来优化显存使用:
|
|
|
-> - 如果您使用单张显卡遇到显存不足的情况时,可能需要调低KV缓存大小,`--mem-fraction-static 0.5`,如仍出现显存不足问题,可尝试进一步降低到`0.4`或更低。
|
|
|
+>
|
|
|
+> - 如果您使用单张显卡遇到显存不足的情况时,可能需要调低KV缓存大小,`--mem-fraction-static 0.5`,如仍出现显存不足问题,可尝试进一步降低到`0.4`或更低
|
|
|
> - 如您有两张以上显卡,可尝试通过张量并行(TP)模式简单扩充可用显存:`--tp-size 2`
|
|
|
|
|
|
### 性能优化参数
|
|
|
@@ -24,7 +25,7 @@
|
|
|
|
|
|
### CUDA_VISIBLE_DEVICES 基本用法
|
|
|
> [!TIP]
|
|
|
-> - 任何情况下,您都可以通过在命令行的开头添加`CUDA_VISIBLE_DEVICES` 环境变量来指定可见的 GPU 设备。例如:
|
|
|
+> - 任何情况下,您都可以通过在命令行的开头添加`CUDA_VISIBLE_DEVICES` 环境变量来指定可见的 GPU 设备:
|
|
|
> ```bash
|
|
|
> CUDA_VISIBLE_DEVICES=1 mineru -p <input_path> -o <output_path>
|
|
|
> ```
|
|
|
@@ -42,13 +43,14 @@
|
|
|
> ```
|
|
|
|
|
|
### 实际应用场景
|
|
|
+
|
|
|
> [!TIP]
|
|
|
> 以下是一些可能的使用场景:
|
|
|
-> - 如果您有多张显卡,需要指定卡0和卡1,并使用多卡并行来启动'sglang-server',可以使用以下命令:
|
|
|
+> - 如果您有多张显卡,需要指定卡0和卡1,并使用多卡并行来启动'sglang-server',可以使用以下命令:
|
|
|
> ```bash
|
|
|
> CUDA_VISIBLE_DEVICES=0,1 mineru-sglang-server --port 30000 --dp-size 2
|
|
|
> ```
|
|
|
-> - 如果您有多张显卡,需要在卡0和卡1上启动两个`fastapi`服务,并分别监听不同的端口,可以使用以下命令:
|
|
|
+> - 如果您有多张显卡,需要在卡0和卡1上启动两个`fastapi`服务,并分别监听不同的端口,可以使用以下命令:
|
|
|
> ```bash
|
|
|
> # 在终端1中
|
|
|
> CUDA_VISIBLE_DEVICES=0 mineru-api --host 127.0.0.1 --port 8000
|