检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改Cluster集群配置 等待AI专属集群创建完成后,在配置管理中关闭Dropcache,大模型场景开启dropcache容易导致pagecache失效。 更多配置说明参考:https://support.huaweicloud.com/usermanual-cluster-mode
基于KubeInfer的部署yaml文件说明 基于KubeInfer的部署,关键是定义部署所需的yaml文件,在下一小节可通过脚本生成,其中yaml文件整体结构如下: kind: KubeInfer apiVersion: infer.modelarts.huaweicloud/v1
KubeInfer的安装与升级 安装KubeInfer 升级KubeInfer(可选) 父主题: 准备、安装部署依赖
AI Gallery(新版) AI Gallery使用流程 发布和管理AI Gallery模型 发布和管理AI Gallery数据集 发布和管理AI Gallery项目 发布和管理AI Gallery镜像 发布和管理AI Gallery中的AI应用 使用AI Gallery微调大师训练模型
Lite Cluster 资源池创建失败的原因与解决方法? 如何定位和处理Cluster资源池节点故障 特权池信息数据显示均为0%如何解决? 重置节点后无法正常使用? 如何根据Cluster节点故障自动恢复业务
Lite Cluster Cluster资源池如何进行NCCl Test?
升级KubeInfer(可选) 如果您需要回退到旧版本,也可以参照以下升级步骤进行操作。 编辑kubeinfer-crd.yaml文件,将${image_name}替换为表2中KubeInfer插件镜像地址。 执行如下命令升级KubeInfer,该命令会完成KubeInfer的滚动升级,对业务无影响。
流程与约束 场景描述 本文档介绍了在ModelArts的Lite Server上基于Ascend-vllm推理框架部署DeepSeek R1/V3模型的解决方案。推理使用的算力资源是Ascend Snt9b和Snt9b23。 使用流程 图1 使用流程 推荐您根据以下使用流程使用本解决方案部署开源三方大模型:
查看指标、配置告警 配置接入层监控告警(可选) 配置推理层监控告警 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
安装开源K8s Volcano的安装与升级 Device Plugin的安装与升级 KubeInfer的安装与升级 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
购买APIG实例并管理API 购买ELB和WAF并接入WAF 调用API 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
数据集发布成功后,如果数据集所有者要新增可使用资产的新用户,则可以在数据集详情页添加新用户。 登录AI Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 选择“我的资产 > 数据集”,在“我创建的数据集”页面找到待修改的数据集,单击数据集页签进入详情页。
kubeinfer kubectl edit kubeinfer ${kubeinfer_name} 或修改yaml配置,然后重新生效: vim infer_vllm_kubeinfer.yaml kubectl apply -f infer_vllm_kubeinfer.yaml
Notebook”。 打开“运行中”的Notebook实例进入JupyterLab页面,在待分享的ipynb文件右侧,单击“创建分享”按钮,弹出“发布AI Gallery Notebook”页面。 图1 单击“创建分享” 在“发布AI Gallery Notebook”页面填写参数,单击“创建”将Notebook代码样例分享至AI
发布和管理AI Gallery镜像 托管镜像到AI Gallery 发布镜像到AI Gallery 管理AI Gallery镜像 父主题: AI Gallery(新版)
KubeInfer部署方案介绍 图1 XP1D KubeInfer部署方案 KubeInfer是由ModelArts提供的一种K8s的CRD扩展插件,它通过定义instance概念,把合作干一件事的Pod统一在一个instance下,按组实现扩缩容、故障恢复、组内通信等的管理,同
[--parameters="xxx"] [--file-name=xx] 针对该实例默认创建NodePort类型的K8s service,对外nodePort默认为30090。如果您要在同一个K8s集群中部署多个kubeinfer实例,注意非单kubeinfer多instance
准备Cluster资源环境 购买并开通资源 配置kubectl访问集群网络 存储配置 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
基于KubeInfer的推理部署 部署准备 PD分离部署推理服务 扩缩容推理服务(可选) 升级推理服务(可选) 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
hdk-npu-driver_版本号_linux-aarch64.run”。 Snt9b资源使用的固件包名称为”Ascend-hdk-910b-npu-firmware_版本号.run”,驱动包名称为”Ascend-hdk-910b-npu-driver_版本号_linux-aarch64