提交
Some checks reported errors
continuous-integration/drone/push Build encountered an error

This commit is contained in:
wenyongda 2025-05-28 19:18:28 +08:00
parent 0d8ebba0f6
commit c072303a97

View File

@ -484,6 +484,65 @@ stdout_logfile=/var/log/supervisor/vLLM-Qwen-Qwen3-4B/out.log
stopasgroup=true
```
#### Docker
Docker Compose方式
```yaml
services:
vllm:
image: 'vllm/vllm-openai:latest'
container_name: vllm-Qwen-Qwen3-8B-AWQ
restart: always
environment:
- 'TZ:Asia/Shanghai'
- 'VLLM_USE_MODELSCOPE:True'
- 'HF_HUB_OFFLINE:1'
ports:
- '8000:8000'
volumes:
- /home/user/modelscope:/root/.cache/modelscope
- /etc/localtime:/etc/localtime:ro
# 启用 NVIDIA GPU 支持
# 在 Docker Desktop 上,可能只需要 'gpu'
# 在 Linux 服务器上,通常是 'nvidia'
# 你提供的命令行是 --runtime nvidia --gpus all
# Docker Compose 对应的方式是:
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all # 或者指定具体的GPU数量如 1, 2 等
capabilities: [gpu] # 确保指定 GPU 能力
# IPC 模式
# ipc: host 允许容器与宿主机共享 IPC 命名空间,
# 这在某些高性能场景下有用,例如共享内存。
ipc: host
# 容器启动时执行的命令和参数
command:
- --model
- /root/.cache/modelscope/Qwen/Qwen3-8B-AWQ
- --served_model_name
- Qwen/Qwen3-4B # 你希望这个model暴露时的名称如果不填默认为本地模型权重路径
- --max_model_len
- "8192" # 支持的最长上下文长度,根据显存大小自行匹配,注意这里需要是字符串
# --api_key 参数在 vLLM 0.3.x 版本中可能不再是直接的命令行参数,
# 而是通过环境变量 API_KEY 来设置的。
# 我已将其移到 environment 部分。
# 如果你的 vLLM 版本仍然支持命令行参数,请取消注释下一行:
# - --api_key
# - "<YOUR-API-KEY-HERE>"
- --gpu_memory_utilization
- "0.9"
- --max-num-seqs
- "128"
- --api-key
- token-abc123
- --reasoning-parser
- deepseek_r1
```
# LLama.cpp