提交

2025-05-28 19:18:28 +08:00 · 2025-05-28 19:18:28 +08:00 · c072303a97
commit c072303a97
parent 0d8ebba0f6
1 changed files with 59 additions and 0 deletions
--- a/source/_posts/大模型.md
+++ b/source/_posts/大模型.md
@ -484,6 +484,65 @@ stdout_logfile=/var/log/supervisor/vLLM-Qwen-Qwen3-4B/out.log
 stopasgroup=true
 ```
 #### Docker
 Docker Compose方式
 ```yaml
 services:
  vllm:
    image: 'vllm/vllm-openai:latest'
    container_name: vllm-Qwen-Qwen3-8B-AWQ
    restart: always
    environment:
      - 'TZ:Asia/Shanghai'
      - 'VLLM_USE_MODELSCOPE:True'
      - 'HF_HUB_OFFLINE:1'
    ports:
      - '8000:8000'
    volumes:
      - /home/user/modelscope:/root/.cache/modelscope
      - /etc/localtime:/etc/localtime:ro
    # 启用 NVIDIA GPU 支持
    # 在 Docker Desktop 上，可能只需要 'gpu'，
    # 在 Linux 服务器上，通常是 'nvidia'
    # 你提供的命令行是 --runtime nvidia --gpus all
    # Docker Compose 对应的方式是：
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all # 或者指定具体的GPU数量，如 1, 2 等
              capabilities: [gpu] # 确保指定 GPU 能力
    # IPC 模式
    # ipc: host 允许容器与宿主机共享 IPC 命名空间，
    # 这在某些高性能场景下有用，例如共享内存。
    ipc: host
    # 容器启动时执行的命令和参数
    command:
      - --model
      - /root/.cache/modelscope/Qwen/Qwen3-8B-AWQ
      - --served_model_name
      - Qwen/Qwen3-4B # 你希望这个model暴露时的名称，如果不填默认为本地模型权重路径
      - --max_model_len
      - "8192" # 支持的最长上下文长度，根据显存大小自行匹配，注意这里需要是字符串
      # --api_key 参数在 vLLM 0.3.x 版本中可能不再是直接的命令行参数，
      # 而是通过环境变量 API_KEY 来设置的。
      # 我已将其移到 environment 部分。
      # 如果你的 vLLM 版本仍然支持命令行参数，请取消注释下一行：
      # - --api_key
      # - "<YOUR-API-KEY-HERE>"
      - --gpu_memory_utilization
      - "0.9"
      - --max-num-seqs
      - "128"
      - --api-key
      - token-abc123
      - --reasoning-parser
      - deepseek_r1
 ```
 # LLama.cpp