From c072303a97277e0aacae37eb5d432810919d2a00 Mon Sep 17 00:00:00 2001 From: wenyongda Date: Wed, 28 May 2025 19:18:28 +0800 Subject: [PATCH] =?UTF-8?q?=E6=8F=90=E4=BA=A4?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- source/_posts/大模型.md | 59 +++++++++++++++++++++++++++++++++++++++++ 1 file changed, 59 insertions(+) diff --git a/source/_posts/大模型.md b/source/_posts/大模型.md index 0e01b5f..7502856 100644 --- a/source/_posts/大模型.md +++ b/source/_posts/大模型.md @@ -484,6 +484,65 @@ stdout_logfile=/var/log/supervisor/vLLM-Qwen-Qwen3-4B/out.log stopasgroup=true ``` +#### Docker + +Docker Compose方式 + +```yaml +services: + vllm: + image: 'vllm/vllm-openai:latest' + container_name: vllm-Qwen-Qwen3-8B-AWQ + restart: always + environment: + - 'TZ:Asia/Shanghai' + - 'VLLM_USE_MODELSCOPE:True' + - 'HF_HUB_OFFLINE:1' + ports: + - '8000:8000' + volumes: + - /home/user/modelscope:/root/.cache/modelscope + - /etc/localtime:/etc/localtime:ro + # 启用 NVIDIA GPU 支持 + # 在 Docker Desktop 上,可能只需要 'gpu', + # 在 Linux 服务器上,通常是 'nvidia' + # 你提供的命令行是 --runtime nvidia --gpus all + # Docker Compose 对应的方式是: + deploy: + resources: + reservations: + devices: + - driver: nvidia + count: all # 或者指定具体的GPU数量,如 1, 2 等 + capabilities: [gpu] # 确保指定 GPU 能力 + # IPC 模式 + # ipc: host 允许容器与宿主机共享 IPC 命名空间, + # 这在某些高性能场景下有用,例如共享内存。 + ipc: host + # 容器启动时执行的命令和参数 + command: + - --model + - /root/.cache/modelscope/Qwen/Qwen3-8B-AWQ + - --served_model_name + - Qwen/Qwen3-4B # 你希望这个model暴露时的名称,如果不填默认为本地模型权重路径 + - --max_model_len + - "8192" # 支持的最长上下文长度,根据显存大小自行匹配,注意这里需要是字符串 + # --api_key 参数在 vLLM 0.3.x 版本中可能不再是直接的命令行参数, + # 而是通过环境变量 API_KEY 来设置的。 + # 我已将其移到 environment 部分。 + # 如果你的 vLLM 版本仍然支持命令行参数,请取消注释下一行: + # - --api_key + # - "" + - --gpu_memory_utilization + - "0.9" + - --max-num-seqs + - "128" + - --api-key + - token-abc123 + - --reasoning-parser + - deepseek_r1 +``` + # LLama.cpp