检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器中各进程的运行日志,包括vllm server相关的进程 容器路径:/home/ma-user/AscendCloud/logs 步骤1:登录容器, kubectl exec -it ${Pod名称} -- bash 步骤2:cd /home/ma-user/AscendCloud/logs
本节主要介绍在AI Gallery中管理资产的整体流程。 在AI Gallery中,需要先将本地数据上传到AI Gallery仓库,创建AI Gallery模型、AI Gallery数据集、AI应用等资产,具体可参见托管模型到AI Gallery、托管数据集到AI Gallery、发布本地AI应用到AI
Gallery CLI配置工具指南 安装Gallery CLI配置工具 使用Gallery CLI配置工具下载文件 使用Gallery CLI配置工具上传文件 父主题: AI Gallery(新版)
安装开源K8s Volcano的安装与升级 Device Plugin的安装与升级 KubeInfer的安装与升级 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
购买APIG实例并管理API 购买ELB和WAF并接入WAF 调用API 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
克隆GitHub开源仓库文件到JupyterLab 在Notebook的JupyterLab中,支持从GitHub开源仓库Clone文件。 通过JupyterLab打开一个运行中的Notebook。 单击JupyterLab窗口上方导航栏的ModelArts Upload Fil
续训和故障快恢说明 handler-name GeneralPretrainHandler GeneralInstructionHandler MOSSInstructionHandler AlpacaStyleInstructionHandler SharegptStyleInstructionHandler
部署准备 KubeInfer部署方案介绍 基于KubeInfer的部署yaml文件说明 生成部署定义yaml 父主题: 基于KubeInfer的推理部署
Device Plugin的安装与升级 安装Device Plugin 升级Device Plugin(可选) 父主题: 准备、安装部署依赖
配置接入层监控告警(可选) CES服务可监控接入层中的EIP、ELB、WAF、APIG指标,同时支持设置告警规则,用户可自定义监控目标与通知策略。 表1 接入层组件告警配置 组件 关键指标项 告警阈值 触发次数 参考文档 EIP 出网带宽使用率 原始值 > 80.00% 连续3次触发告警
获取权重文件 下载Qwen3官方发布的BF16权重,地址见:Qwen3 - a Qwen Collection 【可选】参考量化指导实现对模型进行量化。 父主题: 准备、安装部署依赖
--reasoning-parser xxx 注:XXX为与模型适配的reasoning parser的名称。 关闭模型思维链输出 当前仅Qwen3系列模型支持在发起推理请求时,通过增加模板参数: "enable_thinking": false 的方式来关闭思维链,请求体示例如下: {
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
KubeInfer部署方案介绍 图1 XP1D KubeInfer部署方案 KubeInfer是由ModelArts提供的一种K8s的CRD扩展插件,它通过定义instance概念,把合作干一件事的Pod统一在一个instance下,按组实现扩缩容、故障恢复、组内通信等的管理,同
[--parameters="xxx"] [--file-name=xx] 针对该实例默认创建NodePort类型的K8s service,对外nodePort默认为30090。如果您要在同一个K8s集群中部署多个kubeinfer实例,注意非单kubeinfer多instance
发布和管理AI Gallery数据集 托管数据集到AI Gallery 发布数据集到AI Gallery 管理AI Gallery数据集 父主题: AI Gallery(新版)
基于KubeInfer的部署yaml文件说明 基于KubeInfer的部署,关键是定义部署所需的yaml文件,在下一小节可通过脚本生成,其中yaml文件整体结构如下: kind: KubeInfer apiVersion: infer.modelarts.huaweicloud/v1
deepspeed - 【可选】 ZeRO 的优化策略选择,可选择如下: ds_config_zero0.json ds_config_zero1.json ds_config_zero2.json ds_config_zero3.json ds_config_zero2_offload.json
容器中各进程的运行日志,包括vllm server相关的进程 容器路径:/home/ma-user/AscendCloud/logs 步骤1:登录容器, kubectl exec -it ${Pod名称} -- bash 步骤2:cd /home/ma-user/AscendCloud/logs