检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置训练存储加速 当完成上传数据至OBS并预热到SFS Turbo中步骤后,在ModelArts Standard中创建训练作业时,设置训练“SFS Turbo”,在“文件系统”中选择SFS Turbo实例名称,并指定“存储位置”和“云上挂载路径”。系统会在训练作业启动前,自动将存储位置中的文件目录挂载到训练容器中指定路径。
Gallery算法、镜像、模型、Workflow等AI数字资产的共享,为高校科研机构、AI应用开发商、解决方案集成商、企业级/个人开发者等群体,提供安全、开放的共享及交易环节,加速AI资产的开发与落地,保障AI开发生态链上各参与方高效地实现各自的商业价值。 资产集市介绍 AI Gallery中,“资产集市”
sfsturbo:shares:addShareNic:此策略项表示sfsturbo创建网卡的权限。 sfsturbo:shares:deleteShareNic:此策略项表示sfsturbo删除网卡的权限。 sfsturbo:shares:showShareNic:此策略项表示sfsturbo显示网卡详情的权限。
迁移调优工具链 工具总览 精度调试: msprobe 精度调试:TensorBoard可视化 性能调优: MA-Advisor性能诊断 父主题: GPU业务迁移至昇腾训练推理
Gallery提供了模型、数据集、AI应用等AI数字资产的共享,为高校科研机构、AI应用开发商、解决方案集成商、企业级/个人开发者等群体,提供安全、开放的共享及交易环节,加速AI资产的开发与落地,保障AI开发生态链上各参与方高效地实现各自的商业价值。 使用流程 本节主要介绍在AI Gallery中管理资产的整体流程。
新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/data 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图3 选择SFS Turbo SFS Turbo不能直接挂载到容器的工作路径
专属资源池关联SFS Turbo显示异常 问题现象1 专属资源池关联SFS Turbo时显示异常,关联失败。 图1 关联异常 图2 报错提示 问题现象2 网络操作解除关联SFS Turbo后状态仍显示已关联且无报错信息,而解除关联按钮置灰不可操作。同时该网络的解除关联SFS Turbo按钮置灰不可操作。
前往AI Gallery 进入AI Gallery后,请参考发布免费模型。 发布至AI云商店 华为云云商店有完整的售前、交易、售后的保障体系,用户无需担忧交易,省心省力。在您完成模型的训练和导入之后,您可以将自己的模型发布至AI云商店进行商品售卖。请在首次发布商品前入驻华为云商店成为企业级卖家。
self.linear_1 = nn.Linear(in_features=8, out_features=4) self.linear_2 = nn.Linear(in_features=4, out_features=2) def forward(self,
原生日志、K8s事件采集插件。log-agent插件支持将集群中训练、推理实例的容器标准输出日志采集到lts中。 日志采集可靠性说明 日志系统的核心功能在于记录业务组件的全生命周期状态数据(包括启动初始化、退出、运行时信息及异常事件等),主要服务于组件运行状态查看与故障根因分析等运维场景。
ECS服务器挂载SFS Turbo存储 本小节介绍如何在ECS服务器挂载SFS Turbo存储,挂载完成后可在后续步骤中,将训练所需的数据通过ECS上传至SFS Turbo。 前提条件 已创建SFS Turbo,如果未创建,请参考创建文件系统。 数据及算法已经上传至OBS,如果未
如果使用SFS服务作为存储方案,推荐使用SFS Turbo文件系统。SFS Turbo提供按需扩展的高性能文件存储,还具备高可靠和高可用的特点,支持根据业务需要弹性扩容,且性能随容量增加而提升,可广泛应用于多种业务场景。 在SFS服务控制台上创建文件系统,具体步骤请参考创建SFS Turbo文件系统。同一区域不同
存储profiling数据。 多机场景如果没有挂载共享存储如SFS Turbo,需要将多机上的profiling复制至同一个目录下才能进行性能分析,这个操作相对较为繁琐且耗时。使用ModelArts时推荐挂载共享网盘如sfs turbo,既能加快训练数据的读取速度又能用于存放性能profi
给子账号配置文件夹级的SFS Turbo访问权限 场景描述 本文介绍如何配置文件夹级的SFS Turbo访问权限,实现在ModelArts中访问挂载的SFS Turbo时,只允许子账号访问特定的SFS Turbo文件夹内容。 给子账号配置文件夹级的SFS Turbo访问权限为白名单功能,如果有试用需求,请提工单申请权限。
精度比对 精度比对功能主要针对两类场景的问题: 同一模型,从CPU或GPU移植到NPU中存在精度下降问题,对比NPU芯片中的API计算数值与CPU或GPU芯片中的API计算数值,进行问题定位。 同一模型,进行迭代(模型、框架版本升级或设备硬件升级)时存在的精度下降问题,对比相同模
Standard弹性集群运行环境中存储分为OBS桶和SFS Turbo共享盘,根据存储的不同,数据上传地址有差异,客户根据实际选择。 OBS桶 SFS Turbo共享盘 OBS桶 本地完成代码包AscendCloud-LLM-xxx.zip的解压。 # Linux系统 unzip AscendCloud-*
Standard弹性集群运行环境中存储分为OBS桶和SFS Turbo共享盘,根据存储的不同,数据上传地址有差异,客户根据实际选择。 OBS桶 SFS Turbo共享盘 OBS桶 本地完成代码包AscendCloud-LLM-xxx.zip的解压。 # Linux系统 unzip AscendCloud-*
whl包,地址见教程中下载链接。 Tailor使用指导 性能调优 msprof msprof命令行工具提供了AI任务运行性能数据、昇腾AI处理器系统数据等性能数据的采集和解析能力。 包含在cann toolkit中。 msprof AOE 自动调优工具,提供子图调优和算子调优功能,在静
将数据预热到SFS Turbo 训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。 在ECS服务器挂载SFS Turbo已经将SFS Turbo挂载到了
精度调试:TensorBoard可视化 TensorBoard是TensorFlow的可视化工具包,提供机器学习实验所需的可视化功能和工具。TensorBoard能够有效地展示训练过程中的计算图、各种指标随时间的变化趋势以及训练中使用到的数据信息,帮助用户快速识别训练精度问题。