[!TIP] 如果您已经可以正常使用vllm对vlm模型进行加速推理,但仍然希望进一步提升推理速度,可以尝试以下参数:
- 如果您有超过多张显卡,可以使用vllm的多卡并行模式来增加吞吐量:
--data-parallel-size 2
[!TIP]
- 所有vllm官方支持的参数都可用通过命令行参数传递给 MinerU,包括以下命令:
mineru、mineru-vllm-server、mineru-gradio、mineru-api- 如果您想了解更多有关
vllm的参数使用方法,请参考 vllm官方文档
[!TIP]
任何情况下,您都可以通过在命令行的开头添加
CUDA_VISIBLE_DEVICES环境变量来指定可见的 GPU 设备:CUDA_VISIBLE_DEVICES=1 mineru -p <input_path> -o <output_path>这种指定方式对所有的命令行调用都有效,包括
mineru、mineru-vllm-server、mineru-gradio和mineru-api,且对pipeline、vlm后端均适用。
[!TIP] 以下是一些常见的
CUDA_VISIBLE_DEVICES设置示例:CUDA_VISIBLE_DEVICES=1 # Only device 1 will be seen CUDA_VISIBLE_DEVICES=0,1 # Devices 0 and 1 will be visible CUDA_VISIBLE_DEVICES="0,1" # Same as above, quotation marks are optional CUDA_VISIBLE_DEVICES=0,2,3 # Devices 0, 2, 3 will be visible; device 1 is masked CUDA_VISIBLE_DEVICES="" # No GPU will be visible
[!TIP] 以下是一些可能的使用场景:
如果您有多张显卡,需要指定卡0和卡1,并使用多卡并行来启动
vllm-server,可以使用以下命令:CUDA_VISIBLE_DEVICES=0,1 mineru-vllm-server --port 30000 --data-parallel-size 2如果您有多张显卡,需要在卡0和卡1上启动两个
fastapi服务,并分别监听不同的端口,可以使用以下命令:# 在终端1中 CUDA_VISIBLE_DEVICES=0 mineru-api --host 127.0.0.1 --port 8000 # 在终端2中 CUDA_VISIBLE_DEVICES=1 mineru-api --host 127.0.0.1 --port 8001