Bläddra i källkod

fix: 调整 vllm 启动参数以降低 GPU 内存利用率并更新模型限制

zhch158_admin 2 månader sedan
förälder
incheckning
5f85961325
1 ändrade filer med 5 tillägg och 5 borttagningar
  1. 5 5
      zhch/vllm_daemon.sh

+ 5 - 5
zhch/vllm_daemon.sh

@@ -22,16 +22,16 @@ start() {
     nohup vllm serve $hf_model_path \
 		--host 0.0.0.0 \
 		--port 8101 \
-		--gpu-memory-utilization 0.85 \
+		--gpu-memory-utilization 0.70 \
 		--max-log-len 1000 \
 		--trust-remote-code \
-		--max-model-len 65536 \
-		--max-num-batched-tokens 65536 \
+		--max-model-len 32768 \
+		--max-num-batched-tokens 32768 \
 		--uvicorn-log-level info \
-		--limit-mm-per-prompt '{"image": 3}' \
+		--limit-mm-per-prompt '{"image": 1}' \
 		--chat-template-content-format string \
 		--data-parallel-size 3 \
-		--max-num-seqs 32 \
+		--max-num-seqs 16 \
 		--enable-prefix-caching \
 		--served-model-name ${model_name} \
 		> $LOGFILE 2>&1 &