搜索_华为云

分布式模型训练 - AI开发平台ModelArts

分布式模型训练分布式训练功能介绍创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型
分布式训练功能介绍 - AI开发平台ModelArts

相关章节创建单机多卡的分布式训练（DataParallel）：介绍单机多卡数据并行分布式训练原理和代码改造点。创建多机多卡的分布式训练（DistributedDataParallel）：介绍多机多卡数据并行分布式训练原理和代码改造点。示例：创建DDP分布式训练（PyTorch+

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 分布式模型训练
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU）在分布式训练场景中，使用PyTorch的DistributedDataParallel（DDP）功能是实现高效训练的重要方式。为了帮助用户更好地理解和应用这一功能，本文将详细介绍三种通过训练作业启动PyTorchDDP训练的方法，并提供对应的代码示例。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 分布式模型训练
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” 问题现象多机或多卡使用“tf.variable”会造成以下错误： WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

以下代码中以“### 分布式改造，... ###”注释的代码即为多节点分布式训练需要适配的代码改造点。不对示例代码进行任何修改，适配数据路径后即可在ModelArts上完成多节点分布式训练。注释掉分布式代码改造点，即可完成单节点单卡训练。完整代码见分布式训练完整代码示例。导入依赖包

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 分布式模型训练
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel）在深度学习领域，随着模型规模的不断扩大，训练时间也随之增加。为了提高训练效率，需要采用高效的并行计算方法。在单机环境下，如何充分利用多块GPU卡的计算能力成为一个关键问题。本章节将介绍基于PyTorch引擎的单机多卡数据并行训

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 分布式模型训练
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU）在深度学习领域，使用PyTorch的DistributedDataParallel（DDP）功能在Ascend加速卡上进行分布式训练是一种高效的方式。然而，如何通过自定义镜像和自定义启动命令来实现这一目标，是用户在实际操作中可能遇到的挑战。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 分布式模型训练
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

train_instance_count：必选参数，训练使用的worker个数，分布式调测时为2，训练开始时SDK还会再创建一个Notebook，与当前的Notebook组成一个2节点的分布式调试环境。 script_interpreter：可选参数，指定使用哪个python

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ ModelArts会帮用户生成RANK_TABLE_FILE文件，可通过环境变量查看文件位置。在Notebook中打开terminal，可以运行如下命令查看RANK_TABLE_FILE： 1 env

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在Lite Cluster资源池上使用ranktable路由规划完成PyTorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成PyTorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。

帮助中心 > AI开发平台ModelArts > ModelArts Lite Cluster用户指南 > Lite Cluster资源使用
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务场景描述本案例介绍如何在Snt9B上进行分布式训练任务，其中Cluster资源池已经默认安装volcano调度器，训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。

帮助中心 > AI开发平台ModelArts > ModelArts Lite Cluster用户指南 > Lite Cluster资源使用
infiniband驱动的安装 - AI开发平台ModelArts

如果安装了libibverbs-dev库后仍然无法使能infiniband网卡，您可以直接安装infiniband官方驱动，以使用infiniband网卡进行分布式通信，提升训练性能。infiniband驱动需要在制作镜像时安装。操作步骤下载MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
开启超节点HCCL通信算子级重执行机制 - AI开发平台ModelArts

入重执行机制，提升系统的稳定性和可靠性。 HCCL（Huawei Collective Communication Library，华为集合通信库）是华为专为昇腾（Ascend）AI处理器设计的分布式通信库，旨在优化多设备间的高效协作，以加速深度学习模型的分布式训练，适用于需要大

 帮助中心 > AI开发平台ModelArts > ModelArts Lite Server用户指南 > Lite Server超节点管理
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理。大规模分布式训练能力，加速大模型研发。提供高性价比国产算力。多年软硬件经验沉淀，AI场景极致优化。加速套件，训练、推理、数据访问多维度加速。一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
准备Lite Server环境 - AI开发平台ModelArts

如果使用SFS服务作为存储方案，推荐使用SFS Turbo文件系统。SFS Turbo提供按需扩展的高性能文件存储，还具备高可靠和高可用的特点，支持根据业务需要弹性扩容，且性能随容量增加而提升，可广泛应用于多种业务场景。在SFS服务控制台上创建文件系统，具体步骤请参考创建SFS Turbo文件系统。同一区域不同

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.906） > 训练准备工作
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

户的权限管理，各个云服务都提供了一些预置的“系统策略”供用户直接使用。如果预置的策略不能满足您的细粒度权限控制要求，则可以通过“自定义策略”来进行精细控制。表1列出了ModelArts的所有预置系统策略。表1 ModelArts系统策略策略名称描述类型 ModelArts

帮助中心 > AI开发平台ModelArts > 产品介绍
训练作业动态路由加速 - AI开发平台ModelArts

训练作业动态路由加速在分布式训练场景下，由于多节点之间的数据交互频繁，网络通信效率往往成为性能瓶颈。传统方式下，训练作业的网络通信存在带宽利用率低、数据传输延迟高等问题，这会直接影响训练效率和资源利用率。针对这一技术挑战，用户可能会问：如何有效优化分布式训练中的网络通信性能？M

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型
run_vllm_multi_node.sh - AI开发平台ModelArts

兼容的在线推理服务。在Cluster部署准备章节会使用到。不同的是，run_vllm_multi_node.sh可在多节点上执行，并且通过Ray管理多节点的分布式推理服务。 source /home/ma-user/.bashrc # 等待rank table export START_UP_GL

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导（6.5.905） > 附录
什么是ModelArts - AI开发平台ModelArts

什么是ModelArts ModelArts是华为云提供的一站式AI开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。 “一站式”是指AI开发的各个环节，包括数据处理、算法开

 帮助中心 > AI开发平台ModelArts > 产品介绍
自定义镜像训练作业配置实例间SSH免密互信 - AI开发平台ModelArts

自定义镜像训练作业配置实例间SSH免密互信在使用基于MPI和Horovod框架的自定义镜像进行分布式训练时，如果未配置训练作业实例间的SSH免密互信，将会导致训练任务失败。为确保实例间的通信顺畅，必须预先配置实例间SSH免密互信，确保分布式训练任务顺利进行。配置实例间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 准备模型训练代码

总条数： 990

上一页
1
2
3
4
5
...
50
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消