This commit is contained in:
parent
0d8ebba0f6
commit
c072303a97
@ -484,6 +484,65 @@ stdout_logfile=/var/log/supervisor/vLLM-Qwen-Qwen3-4B/out.log
|
|||||||
stopasgroup=true
|
stopasgroup=true
|
||||||
```
|
```
|
||||||
|
|
||||||
|
#### Docker
|
||||||
|
|
||||||
|
Docker Compose方式
|
||||||
|
|
||||||
|
```yaml
|
||||||
|
services:
|
||||||
|
vllm:
|
||||||
|
image: 'vllm/vllm-openai:latest'
|
||||||
|
container_name: vllm-Qwen-Qwen3-8B-AWQ
|
||||||
|
restart: always
|
||||||
|
environment:
|
||||||
|
- 'TZ:Asia/Shanghai'
|
||||||
|
- 'VLLM_USE_MODELSCOPE:True'
|
||||||
|
- 'HF_HUB_OFFLINE:1'
|
||||||
|
ports:
|
||||||
|
- '8000:8000'
|
||||||
|
volumes:
|
||||||
|
- /home/user/modelscope:/root/.cache/modelscope
|
||||||
|
- /etc/localtime:/etc/localtime:ro
|
||||||
|
# 启用 NVIDIA GPU 支持
|
||||||
|
# 在 Docker Desktop 上,可能只需要 'gpu',
|
||||||
|
# 在 Linux 服务器上,通常是 'nvidia'
|
||||||
|
# 你提供的命令行是 --runtime nvidia --gpus all
|
||||||
|
# Docker Compose 对应的方式是:
|
||||||
|
deploy:
|
||||||
|
resources:
|
||||||
|
reservations:
|
||||||
|
devices:
|
||||||
|
- driver: nvidia
|
||||||
|
count: all # 或者指定具体的GPU数量,如 1, 2 等
|
||||||
|
capabilities: [gpu] # 确保指定 GPU 能力
|
||||||
|
# IPC 模式
|
||||||
|
# ipc: host 允许容器与宿主机共享 IPC 命名空间,
|
||||||
|
# 这在某些高性能场景下有用,例如共享内存。
|
||||||
|
ipc: host
|
||||||
|
# 容器启动时执行的命令和参数
|
||||||
|
command:
|
||||||
|
- --model
|
||||||
|
- /root/.cache/modelscope/Qwen/Qwen3-8B-AWQ
|
||||||
|
- --served_model_name
|
||||||
|
- Qwen/Qwen3-4B # 你希望这个model暴露时的名称,如果不填默认为本地模型权重路径
|
||||||
|
- --max_model_len
|
||||||
|
- "8192" # 支持的最长上下文长度,根据显存大小自行匹配,注意这里需要是字符串
|
||||||
|
# --api_key 参数在 vLLM 0.3.x 版本中可能不再是直接的命令行参数,
|
||||||
|
# 而是通过环境变量 API_KEY 来设置的。
|
||||||
|
# 我已将其移到 environment 部分。
|
||||||
|
# 如果你的 vLLM 版本仍然支持命令行参数,请取消注释下一行:
|
||||||
|
# - --api_key
|
||||||
|
# - "<YOUR-API-KEY-HERE>"
|
||||||
|
- --gpu_memory_utilization
|
||||||
|
- "0.9"
|
||||||
|
- --max-num-seqs
|
||||||
|
- "128"
|
||||||
|
- --api-key
|
||||||
|
- token-abc123
|
||||||
|
- --reasoning-parser
|
||||||
|
- deepseek_r1
|
||||||
|
```
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
# LLama.cpp
|
# LLama.cpp
|
||||||
|
|||||||
Loading…
x
Reference in New Issue
Block a user