Переглянути джерело

优化 vLLM 启动脚本,调整 GPU 内存利用率,新增数据并行和前缀缓存配置

zhch158_admin 3 місяців тому
батько
коміт
04742e016b
1 змінених файлів з 10 додано та 2 видалено
  1. 10 2
      zhch/launch_model_vllm.sh

+ 10 - 2
zhch/launch_model_vllm.sh

@@ -14,6 +14,10 @@
 
 # 如果只有一个 GPU 或模型较小
 # --tensor-parallel-size 1
+
+# data_parallel_size=2,  # 数据并行,每张GPU独立处理请求
+# distributed_executor_backend="mp"  # 使用multiprocessing后端
+# enable_prefix_caching=True,  # 启用前缀缓存
 ######################################################
 
 # download model to /path/to/model
@@ -32,18 +36,22 @@ export PYTHONPATH=$(dirname "$hf_model_path"):$PYTHONPATH
 # launch vllm server
 model_name="DotsOCR"
 # CUDA_VISIBLE_DEVICES=0 vllm serve ${hf_model_path} --tensor-parallel-size 1 --gpu-memory-utilization 0.95  --chat-template-content-format string --served-model-name ${model_name} --trust-remote-code
+# --tensor-parallel-size  1 \
 vllm serve ${hf_model_path} \
     --host 0.0.0.0 \
     --port 8101 \
-    --gpu-memory-utilization 0.95 \
+    --gpu-memory-utilization 0.90 \
     --max-log-len 1000 \
     --trust-remote-code \
 	--max-model-len 65536 \
 	--max-num-batched-tokens 65536 \
     --uvicorn-log-level info \
     --limit-mm-per-prompt image=10 \
-    --tensor-parallel-size  1 \
     --chat-template-content-format string \
+    --data-parallel-size 2 \
+    --max-num-seqs 32 \
+    --distributed-executor-backend mp \
+    --enable-prefix-caching True \
     --served-model-name ${model_name}
 
 # # run python demo after launch vllm server