检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图3 SFS Turbo “文件系统”:选择一个SFS Turbo。 “云上挂载路径”:输入SFS Turbo对应在训练容器内的云上挂载路径。不能为“/”目录,不能为“/cache”、“/home/ma-user/modelarts”等系统已经默认挂载的路径。 “存储位置”:选择SFS
开启“节点高级配置”后,可设置以下参数: 操作系统:可以指定实例的操作系统。 容器引擎:容器引擎是Kubernetes最重要的组件之一,负责管理镜像和容器的生命周期。Kubelet通过Container Runtime Interface (CRI) 与容器引擎交互,以管理镜像和容器。此处支持选择Docker和Con
--profiler-level:日志记录层次。字符串类型,三个有效值 "level0"、"level1"、"level2",默认为level1。 "level0: Collects upper-layer application data, lower-layer NPU data
默认值 建议取值 L0 Server内通信域 0:Server内通信域的通信任务不开启重执行。 1:Server内通信域的通信任务开启重执行。 0 0 L1 Server间通信域 0:Server间通信域的通信任务不开启重执行,默认值为0。 1:Server间通信域的通信任务开启重执行。
基于Docker单机、多机部署 步骤1:启动容器 启动容器镜像前请先按照参数说明修改${}中的参数。docker启动失败会有对应的error提示,启动成功会有对应的docker id生成,并且不会报错。 docker run -itd \ --device=/dev/davinci0
LLM/AIGC/数字人基于Server适配NPU的训练推理指导 ModelArts提供了丰富的关于Server使用NPU进行训练推理的案例指导,涵盖了LLM大语言模型、AIGC图像/视频生成等人等主流应用场景。您可查看详细指导。 LLM大语言模型 主流开源大模型基于Lite Server适配Ascend-VLLM
安装Gallery CLI配置工具 场景描述 Gallery CLI配置工具支持将AI Gallery仓库的资产下载到云服务端,便于在云服务本地进行训练、部署推理。 Gallery CLI配置工具支持将单个超过5GB的文件从本地上传至AI Gallery仓库中。 约束限制 Gallery
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError:
容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name 容器名称。 namespace 是用户创建的POD所在的命名空间。 app_kind 取自首个ownerReferences的kind字段。
同步Lite Server服务器状态 场景描述 Lite Server为一台弹性服务器ECS或裸金属服务器BMS,当用户在ECS或BMS控制台页面修改了服务器状态后,您可通过“同步”功能,同步其状态至ModelArts Lite Server。 同步Lite Server状态 登录ModelArts管理控制台。
用户结束kernelgateway进程后报错Server Connection Error,如何恢复? 问题现象 当kernelgateway进程被结束后,出现如下报错,以及选不到Kernel。 图1 报错Server Connection Error截图 图2 选不到Kernel 原因分析
Lite Server资源热备管理 场景描述 Lite Server资源热备需要用户自建k8s集群。对于k8s集群中的机器资源通过打污点的方式,完成资源热备机的处理,从而使业务pod无法调度到该热备机上。 约束限制 根据下单使用的DevServer资源机器种类和台数不同,推荐您按照下面的表格进行热备机器台数准备。
的库和依赖,甚至整个操作系统的文件系统能被打包成一个简单的可移植的包,这个包可以被用来在任何其他运行Docker的机器上使用。 Kubernetes Kubernetes是一个开源的容器编排部署管理平台,用于管理云平台中多个主机上的容器化应用。Kubernetes的目标是让部署容
parser.add_argument("--docker-ip", type=str, required=True) parser.add_argument("--served-port", type=str, required=True) parser.add_argument("--text"
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
Cluster监控指标 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。 约束限制
侧日志登记为 error msnpureport -g error -d 0 --docker msnpureport -g error -d 1 --docker msnpureport -g error -d 2 --docker msnpureport -g error -d
网络配置 Server创建后,需要进行网络配置,才可使其与Internet通信,具体操作参考配置Lite Server网络章节。 若出现SSH无法登录的情况,请先确认网络安全组配置已正确,并放开对应IP的22端口。 父主题: 准备Server资源环境
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
Server)”,进入“节点”列表页面。 在Server节点列表中执行如下操作,启动或停止Lite Server。 启动Lite Server:单击“启动”。只有处于“已停止/停止失败/启动失败”状态的Lite Server可以执行启动操作。 停止Lite Server:单击“停止”,在弹出的确认对话框中,