提交

2025-05-28 19:18:28 +08:00 · 2025-05-28 19:18:28 +08:00 · c072303a97
commit c072303a97
parent 0d8ebba0f6
1 changed files with 59 additions and 0 deletions
--- a/source/_posts/大模型.md
+++ b/source/_posts/大模型.md
@ -484,6 +484,65 @@ stdout_logfile=/var/log/supervisor/vLLM-Qwen-Qwen3-4B/out.log
 stopasgroup=true
 ```

+#### Docker
+
+Docker Compose方式
+
+```yaml
+services:
+  vllm:
+    image: 'vllm/vllm-openai:latest'
+    container_name: vllm-Qwen-Qwen3-8B-AWQ
+    restart: always
+    environment:
+      - 'TZ:Asia/Shanghai'
+      - 'VLLM_USE_MODELSCOPE:True'
+      - 'HF_HUB_OFFLINE:1'
+    ports:
+      - '8000:8000'
+    volumes:
+      - /home/user/modelscope:/root/.cache/modelscope
+      - /etc/localtime:/etc/localtime:ro
+    # 启用 NVIDIA GPU 支持
+    # 在 Docker Desktop 上，可能只需要 'gpu'，
+    # 在 Linux 服务器上，通常是 'nvidia'
+    # 你提供的命令行是 --runtime nvidia --gpus all
+    # Docker Compose 对应的方式是：
+    deploy:
+      resources:
+        reservations:
+          devices:
+            - driver: nvidia
+              count: all # 或者指定具体的GPU数量，如 1, 2 等
+              capabilities: [gpu] # 确保指定 GPU 能力
+    # IPC 模式
+    # ipc: host 允许容器与宿主机共享 IPC 命名空间，
+    # 这在某些高性能场景下有用，例如共享内存。
+    ipc: host
+    # 容器启动时执行的命令和参数
+    command:
+      - --model
+      - /root/.cache/modelscope/Qwen/Qwen3-8B-AWQ
+      - --served_model_name
+      - Qwen/Qwen3-4B # 你希望这个model暴露时的名称，如果不填默认为本地模型权重路径
+      - --max_model_len
+      - "8192" # 支持的最长上下文长度，根据显存大小自行匹配，注意这里需要是字符串
+      # --api_key 参数在 vLLM 0.3.x 版本中可能不再是直接的命令行参数，
+      # 而是通过环境变量 API_KEY 来设置的。
+      # 我已将其移到 environment 部分。
+      # 如果你的 vLLM 版本仍然支持命令行参数，请取消注释下一行：
+      # - --api_key
+      # - "<YOUR-API-KEY-HERE>"
+      - --gpu_memory_utilization
+      - "0.9"
+      - --max-num-seqs
+      - "128"
+      - --api-key
+      - token-abc123
+      - --reasoning-parser
+      - deepseek_r1
+```
+


 # LLama.cpp