|
|
@@ -16,9 +16,8 @@
|
|
|
```
|
|
|
在浏览器中访问 http://127.0.0.1:7860 使用 Gradio WebUI 或访问 http://127.0.0.1:7860/?view=api 使用 Gradio API。
|
|
|
|
|
|
-
|
|
|
> [!TIP]
|
|
|
-> 以下是一些使用sglang加速模式的建议和注意事项:
|
|
|
+> - 以下是一些使用sglang加速模式的建议和注意事项:
|
|
|
> - sglang加速模式目前支持在最低8G显存的Turing架构显卡上运行,但在显存<24G的显卡上可能会遇到显存不足的问题, 可以通过使用以下参数来优化显存使用:
|
|
|
> - 如果您使用单张显卡遇到显存不足的情况时,可能需要调低KV缓存大小,`--mem-fraction-static 0.5`,如仍出现显存不足问题,可尝试进一步降低到`0.4`或更低。
|
|
|
> - 如您有两张以上显卡,可尝试通过张量并行(TP)模式简单扩充可用显存:`--tp-size 2`
|