检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统会在训练作业启动前,自动将存储位置中的文件目录挂载到训练容器中指定路径。 图2 设置训练“SFS Turbo” 当前训练作业支持挂载多个弹性文件服务SFS Turbo,文件系统支持重复挂载,但挂载路径不可重复。文件系统目录需指定已存在的目录,否则会导致训练作业异常。
迁移调优工具链 工具总览 精度调试: msprobe 精度调试:TensorBoard可视化 性能调优: MA-Advisor性能诊断 父主题: GPU业务迁移至昇腾训练推理
__init__() self.linear_1 = nn.Linear(in_features=8, out_features=4) self.linear_2 = nn.Linear(in_features=4, out_features=2)
sudo apt-get update sudo apt-get install nfs-common 获取SFS Turbo的挂载命令。 进入弹性文件服务SFS管理控制台。 选择“SFS Turbo”进入文件系统列表,单击文件系统名称,进入详情页面。
同时该网络的解除关联SFS Turbo按钮置灰不可操作。 图3 关联SFS Turbo状态 原因分析 ModelArts缺少SFS Turbo委托权限导致关联或解除关联失败。
SFS Turbo提供按需扩展的高性能文件存储,还具备高可靠和高可用的特点,支持根据业务需要弹性扩容,且性能随容量增加而提升,可广泛应用于多种业务场景。 在SFS服务控制台上创建文件系统,具体步骤请参考创建SFS Turbo文件系统。
Tailor使用指导 性能调优 msprof msprof命令行工具提供了AI任务运行性能数据、昇腾AI处理器系统数据等性能数据的采集和解析能力。 包含在cann toolkit中。
其中,“关联sfsturbo”用于将此网络与某个选定的SFS Turbo资源做关联操作,关联完成后,表示SFS Turbo与网络已进行打通,可在训练和开发环境等功能时使用此SFS Turbo。
A :obj:`list` | `dict`: will be serialized and returned """ # get inputs inputs = data.pop("inputs",
图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/data 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。
OBS桶 SFS Turbo共享盘 OBS桶 本地完成代码包AscendCloud-LLM-xxx.zip的解压。 # Linux系统 unzip AscendCloud-*.zip && unzip AscendCloud-LLM-*.zip && unzip .
OBS桶 SFS Turbo共享盘 OBS桶 本地完成代码包AscendCloud-LLM-xxx.zip的解压。 # Linux系统 unzip AscendCloud-*.zip && unzip AscendCloud-LLM-*.zip && unzip .
在notebook中使用performance advisor插件进行性能分析,源数据选择OBS并指定profiling所在的OBS路径(仅支持OBS并行文件系统)。
给子账号配置文件夹级的SFS Turbo访问权限 场景描述 本文介绍如何配置文件夹级的SFS Turbo访问权限,实现在ModelArts中访问挂载的SFS Turbo时,只允许子账号访问特定的SFS Turbo文件夹内容。
将数据预热到SFS Turbo 训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。
图9 查看性能诊断报告 OBS路径仅支持OBS并行文件系统。 Report页面将每隔5s自动刷新一次。 父主题: 性能调优: MA-Advisor性能诊断
精度调试:TensorBoard可视化 TensorBoard是TensorFlow的可视化工具包,提供机器学习实验所需的可视化功能和工具。TensorBoard能够有效地展示训练过程中的计算图、各种指标随时间的变化趋势以及训练中使用到的数据信息,帮助用户快速识别训练精度问题。 在
本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建,因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS Turbo中。 用户需要创建开发环境Notebook,并绑定SFS Turbo,以便能够通过Notebook访问SFS Turbo服务。
本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建,因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS Turbo中。 用户需要创建开发环境Notebook,并绑定SFS Turbo,以便能够通过Notebook访问SFS Turbo服务。
精度调试: msprobe 数据dump指导 advisor异常值分析 API预检 精度比对 梯度监控 父主题: 迁移调优工具链