检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
KubeInfer部署方案介绍 图1 XP1D KubeInfer部署方案 KubeInfer是由ModelArts提供的一种K8s的CRD扩展插件,它通过定义instance概念,把合作干一件事的Pod统一在一个instance下,按组实现扩缩容、故障恢复、组内通信等的管理,同
的“删除”,确认后即可将已经托管的文件从AI Gallery仓库中删除。 文件删除后不可恢复,请谨慎操作。 下架镜像 AI Gallery中已上架的资产支持下架操作。 在AI Gallery首页,选择右上角“我的Gallery”。 在“我的资产”下,查看已上架的资产。 单击资产名称,进入资产详情页。
定义模型。自定义模型必须要满足自定义模型规范,才支持使用AI Gallery工具链服务。 硬件资源 选择支持运行该模型的硬件类型。 最低可运行规格 设置能够运行该模型的最低计算规格。在AI Gallery工具链服务中使用该模型时,只能选取等同或高于该规格的算力资源进行任务下发。 是否支持分布式训练/推理
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决? 问题现象 VS Code连接开发环境时报错“Bad owner or permissions on C:\Users\Administrator/
AI Gallery(新版) AI Gallery使用流程 发布和管理AI Gallery模型 发布和管理AI Gallery数据集 发布和管理AI Gallery项目 发布和管理AI Gallery镜像 发布和管理AI Gallery中的AI应用 使用AI Gallery微调大师训练模型
Lite Cluster 资源池创建失败的原因与解决方法? 如何定位和处理Cluster资源池节点故障 特权池信息数据显示均为0%如何解决? 重置节点后无法正常使用? 如何根据Cluster节点故障自动恢复业务
Lite Cluster Cluster资源池如何进行NCCl Test?
我的Gallery介绍 “我的Gallery”可以查看各类AI资产的发布订阅情况和个人资料等。 在“AI Gallery”页面中,单击右上角“我的Gallery > 我的主页”进入个人中心页面。 图1 进入我的Gallery 表1 我的Gallery列表介绍 模块列表 功能介绍 我的主页
登录Gallery CLI配置工具后,使用命令“gallery-cli download --help”可以获取Gallery CLI配置工具下载文件的帮助信息。 gallery-cli download --help 获得命令“gallery-cli download”可用选项的完整列表如下所示。
日志采集与转储 接入层日志采集与转储(可选) 推理层日志管理 父主题: DeepSeek模型基于ModelArts Lite Server适配NPU的PD分离推理解决方案
查看指标、配置告警 配置接入层监控告警(可选) 配置推理层监控告警 父主题: DeepSeek模型基于ModelArts Lite Server适配NPU的PD分离推理解决方案
KubeInfer的部署yaml文件说明,命令如下: kubectl get kubeinfer kubectl edit kubeinfer ${kubeinfer_name} 或修改yaml配置,然后重新生效: vim infer_vllm_kubeinfer.yaml kubectl
Gallery工具链服务,即服务不处于计费的状态中,则系统不会立即扣费,依然等到满1小时后再进行扣费,且基于当前1小时内的实际使用时长进行扣费。 实际计费规则 资源按时价扣费,真正计费的价格以实际账单为准。查看账单请参见账单介绍。 用户在创建AI Gallery工具链服务选择付
修改Cluster集群配置 等待AI专属集群创建完成后,在配置管理中关闭Dropcache,大模型场景开启dropcache容易导致pagecache失效。 更多配置说明参考:https://support.huaweicloud.com/usermanual-cluster-mode
基于KubeInfer的部署yaml文件说明 基于KubeInfer的部署,关键是定义部署所需的yaml文件,在下一小节可通过脚本生成,其中yaml文件整体结构如下: kind: KubeInfer apiVersion: infer.modelarts.huaweicloud/v1
KubeInfer的安装与升级 安装KubeInfer 升级KubeInfer(可选) 父主题: 准备、安装部署依赖
流程与约束 场景描述 本文档介绍了在ModelArts的Lite Server上基于Ascend-vllm推理框架部署DeepSeek R1/V3模型的解决方案。推理使用的算力资源是Ascend Snt9b和Snt9b23。 使用流程 图1 使用流程 推荐您根据以下使用流程使用本解决方案部署开源三方大模型:
查看指标、配置告警 配置接入层监控告警(可选) 配置推理层监控告警 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
升级KubeInfer(可选) 如果您需要回退到旧版本,也可以参照以下升级步骤进行操作。 编辑kubeinfer-crd.yaml文件,将${image_name}替换为表2中KubeInfer插件镜像地址。 执行如下命令升级KubeInfer,该命令会完成KubeInfer的滚动升级,对业务无影响。
NPU设备的管理插件。 开通Lite Cluster资源时,仅实例规格类型选择“Ascend”时自动安装。 Volcano调度器 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而 Kubernetes 当下缺失的一系列特性。