修改Cluster集群配置 等待AI专属集群创建完成后,在配置管理中关闭Dropcache,大模型场景开启dropcache容易导致pagecache失效。 更多配置说明参考:https://support.huaweicloud.com/usermanual-cluster-mode
KubeInfer部署方案介绍 图1 XP1D KubeInfer部署方案 KubeInfer是由ModelArts提供的一种K8s的CRD扩展插件,它通过定义instance概念,把合作干一件事的Pod统一在一个instance下,按组实现扩缩容、故障恢复、组内通信等的管理,同
[--parameters="xxx"] [--file-name=xx] 针对该实例默认创建NodePort类型的K8s service,对外nodePort默认为30090。如果您要在同一个K8s集群中部署多个kubeinfer实例,注意非单kubeinfer多instance
kubeinfer kubectl edit kubeinfer ${kubeinfer_name} 或修改yaml配置,然后重新生效: vim infer_vllm_kubeinfer.yaml kubectl apply -f infer_vllm_kubeinfer.yaml
企业在华为云账号A的华北-乌兰察布一创建了Lite Cluster资源池,在西南-贵阳一区域已搭建站点服务或数据,华北-乌兰察布一的Lite Cluster资源池需要访问西南-贵阳一区域的数据或服务。 创建一个云连接实例,将VPC接入云连接实例内,云连接实例内的VPC则可以实现网络互通。 图1 资源池跨区域访问
准备Cluster资源环境 购买并开通资源 配置kubectl访问集群网络 存储配置 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
基于KubeInfer的推理部署 部署准备 PD分离部署推理服务 扩缩容推理服务(可选) 升级推理服务(可选) 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
hdk-npu-driver_版本号_linux-aarch64.run”。 Snt9b资源使用的固件包名称为”Ascend-hdk-910b-npu-firmware_版本号.run”,驱动包名称为”Ascend-hdk-910b-npu-driver_版本号_linux-aarch64
日志采集与转储 接入层日志采集与转储(可选) 推理层日志管理 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
常见运维操作指导 多实例推理服务手动摘流指导 多实例推理服务无感升级指导 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
K8s master节点重启 问题现象:K8s master节点重启后,POD存在UnexpectedAdmissionError状态,且服务无法正常启动。 解决方法:需要在K8s master节点重启恢复后重启Volcano等组件,并重启业务实例。 镜像通过docker load到
基础容器镜像地址。 docker pull {image_url} 步骤三:上传模型权重文件 上传安装依赖软件推理代码AscendCloud-LLM-xxx.zip和算子包AscendCloud-OPP-xxx.zip到主机中,包获取路径请参见表1。 将权重文件上传到Server机器中。权重文
获取权重文件 准备FP8权重 准备W8A8权重 父主题: 准备、安装部署依赖
表1 基础镜像 资源类型 基础镜像地址 Snt9b23 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.2.rc1-py_3.11-hce_2.0.2503-a
req -new -key server.key -out server.pem -subj "/C=CN/ST=ZJ/L=HZ/O=HW/OU=ModelArts/CN=server/" #使用CA证书签发server证书(10年有效期) openssl x509 -req -extfile
流程与约束 场景描述 本文档介绍了在ModelArts的Lite Server上基于Ascend-vllm推理框架部署开源三方大模型的解决方案。推理使用的算力资源是Ascend Snt9b和Snt9b23。 使用流程 图1 使用流程 推荐您根据以下使用流程使用本解决方案部署开源三方大模型:
hdk-npu-driver_版本号_linux-aarch64.run”。 Snt9b资源使用的固件包名称为”Ascend-hdk-910b-npu-firmware_版本号.run”,驱动包名称为”Ascend-hdk-910b-npu-driver_版本号_linux-aarch64
the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决? 问题现象 或 原因分析 可能为/home/ma-user/work磁盘空间不足。 解决方法 删除/home/ma-user/work路径下无用文件。
配置推理层监控告警 在CES中查看指标并配置告警 在Prometheus查看vLLM业务指标 父主题: 查看指标、配置告警
访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。如果显示如图3的内容,则配置成功。 kubectl cluster-info 图3 查看 Kubernetes 集群信息正确弹出内容 父主题: 准备Cluster资源环境
您即将访问非华为云网站,请注意账号财产安全