Files
openmind/docs/zh/basic_tutorial/deploy.md
mamba_chen e1475fd4af !155 补充openMind的部署相关文档
Merge pull request !155 from mamba_chen/dev
2024-12-26 07:51:21 +00:00

3.9 KiB
Raw Blame History

模型部署

模型部署是指将大模型运行在专属的计算资源上,使模型在独立的运行环境中高效、可靠地运行,并为业务应用提供推理服务。

概述

openMind Library提供了模型部署的方法支持用户快速方便地在本地部署推理服务。当前支持的推理引擎包括

  • MindIE
  • LMDeploy

openMind Library提供命令行接口command-line interface, CLI支持用户在shell环境下交互式实现部署流程。

openMind Library命令行接口内置于openMind Library中安装openMind Library即可使用详细步骤参考openMind Library安装指南

使用方法和参数配置

openmind-cli deploy model_name_or_path [--backend {mindie, lmdeploy}] [--port server_port] [--world_size world_size] [--npu_device_ids npu_device_ids] 

或者

openmind-cli deploy stop
  • model_name_or_pathstr必选,默认为None部署模型路径支持魔乐社区模型ID或模型权重本地路径。当backend为mindie时本地的模型来源必须为下载清单中的模型的本地路径
  • --backend str可选,默认为mindie):推理引擎,可以选择mindie或者lmdeploy
  • --portint可选,默认为1025):部署端口。
  • --world_sizeint可选,默认为4部署使用的npu卡的world_size在backend为mindie时生效。world_size需要与npu_device_ids中指定的卡数目一致。
  • --npu_device_idsstr可选,默认为0,1,2,3部署使用的npu卡号在backend为mindie时生效。world_size需要与npu_device_ids中指定的卡数目一致。
  • 使用stop命令可以停止MindIE的部署服务。

MindIE

部署MindIE服务示例

  • 从魔乐社区上获取模型MindIE/llama2_7b在默认端口1025上进行部署。

    openmind-cli deploy MindIE/llama2_7b
    
  • 使用本地llama2_7b模型在指定端口1025上进行部署指定0,1号卡。

    openmind-cli deploy /path/to/your/llama2_7b --backend mindie --port 1025 --world_size 2 --npu_device_ids '0,1'
    
  • 停止MindIE服务

    openmind-cli deploy stop
    

交互示例

部署成功(执行npu-smi info看到相关进程可以在同服务器上使用curl进行交互。

  • 查看模型列表v1/models

    curl http://127.0.0.1:{port}/v1/models
    
  • 对话v1/chat/completions

    curl "http://127.0.0.1:{port}/v1/chat/completions" \
        -H "Content-Type: application/json" \
        -d '{
            "model": "llama2_7b",
            "messages": [
                {
                    "role": "user",
                    "content": "如何养生?"
                }
            ],
            "max_tokens": 128
        }'
    
  • 停止MindIE服务

    openmind-cli deploy stop
    

LMDeploy

部署LMDeploy服务示例

  • 从魔乐社区上获取模型AI-Research/Qwen2-7B在默认端口1025上进行部署。

    openmind-cli deploy AI-Research/Qwen2-7B --backend lmdeploy
    
  • 使用本地Qwen2-7B模型在指定端口1025上进行部署。

    openmind-cli deploy /path/to/your/Qwen2-7B --backend lmdeploy --port 1025
    

交互示例

部署成功后可以在同服务器上使用curl进行交互。

  • 查看模型列表v1/models

    curl http://127.0.0.1:1025/v1/models
    
  • 对话v1/chat/completions

    curl http://127.0.0.1:1025/v1/chat/completions \
      -H 'Content-Type: application/json' \
      -d '{
      "model": "AI-Research/Qwen2-7B",
      "messages": "推荐一个海边度假的地方"
    }'
    

openmind-cli deploy的全量参数可以参考openmind-cli deploy接口