检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
上架自定义镜像,操作步骤请参考发布模型到AI Gallery。 在AI Gallery进行自定义镜像训练或推理。使用AI Gallery微调大师训练模型或使用AI Gallery在线推理服务部署模型。 如果使用自定义镜像进行训练,操作步骤可以参考使用AI Gallery微调大师训练模型,其中“训练任务
图3 SFS Turbo “文件系统”:选择一个SFS Turbo。 “云上挂载路径”:输入SFS Turbo对应在训练容器内的云上挂载路径。不能为“/”目录,不能为“/cache”、“/home/ma-user/modelarts”等系统已经默认挂载的路径。 “存储位置”:选择SFS
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
8个节点上分别进行日志采集,收集的日志存储在worker-0 ~ worker-7这8个目录下。然后分别在8个目录下进行日志清洗,每一个目录下的日志清洗结果分别存储到output/worker-0 ~ output/worker-7下面。最后,在output目录下进行故障诊断,得到诊断结果。
不指定图编译缓存路径,然后部署推理服务。 将单实例多个Decode容器内/home/ma-user/AscendCloud/.torchair_cache目录下的部分缓存文件合并成一个完整的图编译缓存。 /home/ma-user/AscendCloud/.torchair_cache/ # 需要合
"deepseek_v3", "moe_intermediate_size": 2048, "moe_layer_freq": 1, "n_group": 8, "n_routed_experts": 256, "n_shared_experts": 1, "norm_topk_prob":
--profiler-level:日志记录层次。字符串类型,三个有效值 "level0"、"level1"、"level2",默认为level1。 "level0: Collects upper-layer application data, lower-layer NPU data
Reasoning Outputs与guided-decoding不兼容,不可同时使用。 Reasoning Outputs与structured_outputs和tool_calling不兼容。 不支持请求参数stop和stop_token_ids,当前版本会导致思考过程被提前截断。
image ServerImageResponse object 参数解释:服务器镜像信息。 category String 参数解释:服务器归属类型。 取值范围: HPS:超节点服务器 SPOD:整柜服务器 SERVER:单台服务器 server_hps ServerHpsInfo
image ServerImageResponse object 参数解释:服务器镜像信息。 category String 参数解释:服务器归属类型。 取值范围: HPS:超节点服务器 SPOD:整柜服务器 SERVER:单台服务器 server_hps ServerHpsInfo
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
Lite Server资源配置 Lite Server资源配置流程 配置Lite Server网络 配置Lite Server存储 配置Lite Server软件环境
配置Lite Server软件环境 NPU服务器上配置Lite Server资源软件环境 父主题: Lite Server资源配置
Lite Server插件管理 安装Lite Server AI插件 升级Lite Server中的昇腾驱动固件版本 Lite Server节点故障诊断 Lite Server节点一键式压测
开启“节点高级配置”后,可设置以下参数: 操作系统:可以指定实例的操作系统。 容器引擎:容器引擎是Kubernetes最重要的组件之一,负责管理镜像和容器的生命周期。Kubelet通过Container Runtime Interface (CRI) 与容器引擎交互,以管理镜像和容器。此处支持选择Docker和Con
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError:
p_id)]["server_list"][0]["server_ip"]) return server_ip_list def main(argv): group_id_list = argv[1].split(',') server_ip_list =
Lite Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。 高危操作风险等级说明: 高:对于可能直
默认值 建议取值 L0 Server内通信域 0:Server内通信域的通信任务不开启重执行。 1:Server内通信域的通信任务开启重执行。 0 0 L1 Server间通信域 0:Server间通信域的通信任务不开启重执行,默认值为0。 1:Server间通信域的通信任务开启重执行。
--profiler-level:日志记录层次。字符串类型,三个有效值 "level0"、"level1"、"level2",默认为level1。 "level0: Collects upper-layer application data, lower-layer NPU data