检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置推理层监控告警 在CES中查看指标并配置告警 在Prometheus查看vLLM业务指标 父主题: 查看指标、配置告警
准备Cluster资源环境 购买并开通资源 配置kubectl访问集群网络 存储配置 父主题: Qwen3模型基于ModelArts Lite Cluster适配NPU的混部推理解决方案
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
deepspeed - 【可选】 ZeRO 的优化策略选择,可选择如下: ds_config_zero0.json ds_config_zero1.json ds_config_zero2.json ds_config_zero3.json ds_config_zero2_offload.json
--reasoning-parser xxx 注:XXX为与模型适配的reasoning parser的名称。 关闭模型思维链输出 当前仅Qwen3系列模型支持在发起推理请求时,通过增加模板参数: "enable_thinking": false 的方式来关闭思维链,请求体示例如下: {
容器中各进程的运行日志,包括vllm server相关的进程 容器路径:/home/ma-user/AscendCloud/logs 步骤1:登录容器, kubectl exec -it ${Pod名称} -- bash 步骤2:cd /home/ma-user/AscendCloud/logs
Lite Cluster资源配置流程 本章节介绍Lite Cluster环境配置详细流程,适用于加速卡环境配置。 前提条件 已完成集群资源购买和开通,具体请参见Lite Cluster资源开通。 集群的配置使用需要用户具备一定的知识背景,包括但不限于Kubernetes基础知识、网络知识、存储和镜像知识。
监控Lite Cluster资源:ModelArts支持使用AOM和Prometheus对资源进行监控,方便您了解当前的资源使用情况。 释放Lite Cluster资源:针对不再使用的Lite Cluster资源,您可以释放资源。 图1 Lite Cluster资源管理介绍 父主题:
获取权重文件 下载Qwen3官方发布的BF16权重,地址见:Qwen3 - a Qwen Collection 【可选】参考量化指导实现对模型进行量化。 父主题: 准备、安装部署依赖
在非硬件故障或资源有热备的情况下,通常基于KubeInfer的自动恢复机制或K8s健康检查自动恢复机制能够实现实例的自动恢复。但如果是硬件故障且无热备,此时可通过下述方法实现故障降级快速恢复业务。核心思路是通过降低P的个数,由KubeInfer自动隔离故障节点。操作步骤如下: 【可选】如果
访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。如果显示如图3的内容,则配置成功。 kubectl cluster-info 图3 查看 Kubernetes 集群信息正确弹出内容 父主题: 准备Cluster资源环境
kubeinfer kubectl edit kubeinfer ${kubeinfer_name} 或修改yaml配置,然后重新生效: vim infer_vllm_kubeinfer.yaml kubectl apply -f infer_vllm_kubeinfer.yaml
准备FP8权重 约束限制 由于模型权重较大,请确保您的磁盘有足够的空间放下所有权重,例如DeepSeekV3权重约为630G左右。 下载DeepSeek官方发布的FP8权重 下载FP8的权重地址如下: deepseek-ai/DeepSeek-R1 deepseek-ai/DeepSeek-R1-0528
基于KubeInfer的推理部署 部署准备 单机部署推理服务 LoadBalancer类型K8s service创建(可选) 扩缩容推理服务(可选) 升级推理服务(可选) 父主题: Qwen3模型基于ModelArts Lite Cluster适配NPU的混部推理解决方案
发布和管理AI Gallery数据集 托管数据集到AI Gallery 发布数据集到AI Gallery 管理AI Gallery数据集 父主题: AI Gallery(新版)
基于KubeInfer的部署yaml文件说明 基于KubeInfer的部署,关键是定义部署所需的yaml文件,在下一小节可通过脚本生成,其中yaml文件整体结构如下: kind: KubeInfer apiVersion: infer.modelarts.huaweicloud/v1
构建模型 自定义模型规范 自定义镜像规范 使用AI Gallery SDK构建自定义模型 父主题: 发布和管理AI Gallery模型
监控Lite Cluster资源 使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理