检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
基于KubeInfer的推理部署 部署准备 单机部署推理服务 LoadBalancer类型K8s service创建(可选) 扩缩容推理服务(可选) 升级推理服务(可选) 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
ontainer Runtime Interface (CRI) 与容器引擎交互,以管理镜像和容器。此处支持选择Docker和Containerd。Containerd和Docker的详细差异对比请见容器引擎。 如果CCE集群版本低于1.23,仅支持选择Docker作为容器引擎。如果CCE集群版本大于等于1
容器中各进程的运行日志,包括vllm server相关的进程 容器路径:/home/ma-user/AscendCloud/logs 步骤1:登录容器, kubectl exec -it ${Pod名称} -- bash 步骤2:cd /home/ma-user/AscendCloud/logs
基于KubeInfer的部署yaml文件说明 基于KubeInfer的部署,关键是定义部署所需的yaml文件,在下一小节可通过脚本生成,其中yaml文件整体结构如下: kind: KubeInfer apiVersion: infer.modelarts.huaweicloud/v1
指定时长:设置作业运行几小时后停止,当AI Gallery工具链服务运行时长达到指定时长时,系统将会暂停作业。时长设置不能超过计算资源的剩余额度。 说明: 如果选择付费资源,则请确认账号未欠费,且余额高于所选计算规格的收费标准,否则可能会导致AI Gallery工具链服务异常中断。AI Gallery的计算规格的计费说明请参见计算规格说明。
KubeInfer部署方案介绍 图1 XP1D KubeInfer部署方案 KubeInfer是由ModelArts提供的一种K8s的CRD扩展插件,它通过定义instance概念,把合作干一件事的Pod统一在一个instance下,按组实现扩缩容、故障恢复、组内通信等的管理,同
升级KubeInfer(可选) 如果您需要回退到旧版本,也可以参照以下升级步骤进行操作。 编辑kubeinfer-crd.yaml文件,将${image_name}替换为表2中KubeInfer插件镜像地址。 执行如下命令升级KubeInfer,该命令会完成KubeInfer的滚动升级,对业务无影响。
基于KubeInfer的部署yaml文件说明 基于KubeInfer的部署,关键是定义部署所需的yaml文件,在下一小节可通过脚本生成,其中yaml文件整体结构如下: kind: KubeInfer apiVersion: infer.modelarts.huaweicloud/v1
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
Outputs功能 在启动服务时添加如下命令。 --enable-reasoning --reasoning-parser deepseek_r1 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.5.902)
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
KubeInfer部署方案介绍 图1 XP1D KubeInfer部署方案 KubeInfer是由ModelArts提供的一种K8s的CRD扩展插件,它通过定义instance概念,把合作干一件事的Pod统一在一个instance下,按组实现扩缩容、故障恢复、组内通信等的管理,同
${docker_ip}替换为实际宿主机的IP地址。如果启动服务未添加served-model-name参数,${container_model_path}的值请与model参数的值保持一致,如果使用了served-model-name参数,${container_model_path}请替换为实际使用的模型名称。
${docker_ip}替换为实际宿主机的IP地址。如果启动服务未添加served-model-name参数,${container_model_path}的值请与model参数的值保持一致,如果使用了served-model-name参数,${container_model_path}请替换为实际使用的模型名称。
U CANN plog、ray等日志。若不及时清理,这些日志将长期占用磁盘空间,可能导致磁盘满载,进而影响服务性能甚至导致进程崩溃。为保障系统的稳定运行与磁盘资源的合理利用,需要配置定期清理老化日志的机制。 定期清理老化日志配置如下: 从部署依赖版本包中获取日志清理脚本,该脚本会清理更新时间大于7天的日志文件。
部署准备 KubeInfer部署方案介绍 基于KubeInfer的部署yaml文件说明 生成部署定义yaml 父主题: 基于KubeInfer的推理部署
Cluster资源池名称。不可编辑。 容器引擎 容器引擎是Kubernetes最重要的组件之一,负责管理镜像和容器的生命周期。Kubelet通过Container Runtime Interface (CRI) 与容器引擎交互,以管理镜像和容器。其中Containerd调用链更短,组
gsm8k_datasets[0]["infer_cfg"]["inferencer"].pop("max_out_len") 参数说明: abbr:模型简称 type:模型类型 path:注册的模型名称 tokenizer_path:tokenizer目录,不配置默认使用path参数 key:模型访问密钥
部署准备 KubeInfer部署方案介绍 基于KubeInfer的部署yaml文件说明 生成部署定义yaml 父主题: 基于KubeInfer的推理部署