检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景) 用户如果购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server支持配置的存储方案请参考配置Lite
注册并登录管理控制台。 单击右上角的用户名,在下拉列表中单击“我的凭证”。 单击“访问密钥”。 单击“新增访问密钥”,进入“身份验证”页面。 根据提示完成身份验证,下载密钥,并妥善保管。 获取在线服务信息 在调用接口时,需获取在线服务的调用地址,以及在线服务的输入参数信息。步骤如下:
--tensor-parallel-size:并行卡数。 --gpu-memory-utilization:0~1之间的float,实际使用的显存是系统读取的最大显存*gpu-memory-utilization。 --max-model-len:最大数据输入+输出长度,不能超过模型配置文件config
capital of France is", "The future of AI is", ] sampling_params = SamplingParams(temperature=0.8, top_p=0.95) model_path =
Lite模式DevServer节点操作系统 HCE2.0(推荐)/EulerOS 2.10 Lite模式Cluster节点操作系统 EulerOS 2.10(CCE标准版)/HCE2.0(CCE Turbo) Standard模式集群节点操作系统 EulerOS 2.10(CCE标准版)
调用失败时的错误码,具体请参见错误码。调用成功时无此字段。 log_file_list String 训练作业的日志文件名。单机作业日志仅有一个文件,分布式作业日志有多个文件。 请求示例 如下以获取“job_id”为10,“version_id”为10的作业日志文件为例。 GET htt
本文旨在指导客户将已有的推理业务迁移到昇腾设备上运行(单机单卡、单机多卡),并获得更好的推理性能收益。 ModelArts针对上述使用场景,在给出系统化推理业务昇腾迁移方案的基础上,提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源和工具链,以及具体的Notebook代码运行示例
登录弹性文件服务SFS控制台,在SFS Turbo列表找到训练作业挂载的SFS Turbo,单击名称进入详情页。获取VPC信息、安全组信息和endpoint信息。 VPC信息:SFS Turbo详情页的“虚拟私有云”。 安全组信息:SFS Turbo详情页的“安全组”。 endpoint信息:SFS Turbo详
出替换命令。 /mnt/sfs_turbo 为宿主机中默认挂载SFS Turbo的工作目录,目录下存放着训练所需代码、数据等文件。 同样,/mnt/sfs_turbo 也可以映射至容器中,作为容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。为方便访问两个地址可以相同。 ${pvc_name}
略中必须包含允许“modelarts:notebook:create”的授权项,该接口才能调用成功。 支持的授权项 策略包含系统策略和自定义策略,如果系统策略不满足授权要求,管理员可以创建自定义策略,并通过给用户组授予自定义策略来进行精细的访问控制。策略支持的操作与API相对应,授权项列表说明如下:
方式,将数据集上传至SFS Turbo中。 方式一:将下载的原始数据通过SSH直接上传至SFS Turbo中。具体步骤如下: 进入到/mnt/sfs_turbo/目录下。创建目录“training_data”,将原始数据存放在/mnt/sfs_turbo/training_data目录下。
出替换命令。 /mnt/sfs_turbo 为宿主机中默认挂载SFS Turbo的工作目录,目录下存放着训练所需代码、数据等文件。 同样,/mnt/sfs_turbo 也可以映射至容器中,作为容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。为方便访问两个地址可以相同。 ${pvc_name}
Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。
华为云 ModelArts ModelArts是面向开发者的一站式AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。 图说ModelArts
Abnormal:网络连接不正常 表12 sfsTurboStatus 参数 参数类型 描述 sfsId String SFS Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下: Active:SFS连通状态正常
容错检查包括两个检查项:环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时,隔离故障硬件并重新下发训练作业。针对于分布式场景,容错检查会检查本次训练作业的全部计算节点。 推理部署故障恢复 用户部署的在线推理服务运行过程中,如发生硬件故障导致推理实例故障,Mo
x_tensor_name = signature[signature_key].inputs[input_key].name y_tensor_name = signature[signature_key].outputs[output_key].name
出替换命令。 /mnt/sfs_turbo 为宿主机中默认挂载SFS Turbo的工作目录,目录下存放着训练所需代码、数据等文件。 同样,/mnt/sfs_turbo 也可以映射至容器中,作为容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。为方便访问两个地址可以相同。 ${pvc_name}
出替换命令。 /mnt/sfs_turbo 为宿主机中默认挂载SFS Turbo的工作目录,目录下存放着训练所需代码、数据等文件。 同样,/mnt/sfs_turbo 也可以映射至容器中,作为容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。为方便访问两个地址可以相同。 ${pvc_name}
方式,将数据集上传至SFS Turbo中。 方式一:将下载的原始数据通过SSH直接上传至SFS Turbo中。具体步骤如下: 进入到/mnt/sfs_turbo/目录下。创建目录“training_data”,将原始数据存放在/mnt/sfs_turbo/training_data目录下。