搜索_华为云

身份认证与访问控制 - AI开发平台ModelArts

身份认证与访问控制身份认证用户访问ModelArts的方式有多种，包括ModelArts控制台、API、SDK，无论访问方式封装成何种形式，其本质都是通过ModelArts提供的REST风格的API接口进行请求。 ModelArts的接口均需要进行认证鉴权以此来判断是否通过身

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
ModelArts-成长地图 - AI开发平台ModelArts

-成长地图 | 华为云

 帮助中心 > AI开发平台ModelArts > 成长地图
（可选）配置镜像预热 - AI开发平台ModelArts

的是提高镜像加载效率，减少训练作业启动时间。 Lite Cluster资源池支持镜像预热功能，提前在资源池节点上拉取镜像，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何在Lite Cluster配置镜像预热功能。前提条件已完成Lite Cluster集群资源购买和开通，具体请参见Lite

帮助中心 > AI开发平台ModelArts > ModelArts Lite Cluster用户指南 > Lite Cluster资源配置
日志提示“no socket interface found” - AI开发平台ModelArts

日志提示“no socket interface found” 问题现象在pytorch镜像运行分布式作业时，设置NCCL日志级别，代码如下： import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误： job0879f61e-jo

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

使用OBS客户端上传文件的操作指导：上传文件方法一：在Notebook中通过Moxing上传下载OBS文件 MoXing是ModelArts自研的分布式训练加速框架，构建于开源的深度学习引擎TensorFlow、PyTorch等之上，使用MoXing API可让模型代码的编写更加简单、高效。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
计费说明 - AI开发平台ModelArts
计费说明 - AI开发平台ModelArts

计费说明 ModelArts是面向AI开发者的一站式开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。 ModelArts服务的计费方式简单、灵活，您既可以选择按实际使用时长

 帮助中心 > AI开发平台ModelArts > 产品介绍
创建并挂载SFS Turbo - 存储配置 - AI开发平台ModelArts

创建并挂载SFS Turbo SFS Turbo为用户提供按需扩展的高性能共享文件存储，还具备高可靠和高可用的特点，支持根据业务需要弹性扩容，且性能随容量增加而提升，可广泛应用于多种业务场景。在SFS服务控制台上创建文件系统，具体步骤请参考创建SFS Turbo文件系统。同一区域不同

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek基于Lite Server&Cluster推理 > DeepSeek模型基于ModelArts Lite Cluster适配Snt9b23的PD分离推理解决方案 > 准备Cluster资源环境 > 存储配置
创建并挂载SFS Turbo - 存储配置 - AI开发平台ModelArts

创建并挂载SFS Turbo SFS Turbo为用户提供按需扩展的高性能共享文件存储，还具备高可靠和高可用的特点，支持根据业务需要弹性扩容，且性能随容量增加而提升，可广泛应用于多种业务场景。在SFS服务控制台上创建文件系统，具体步骤请参考创建SFS Turbo文件系统。同一区域不同

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek基于Lite Server&Cluster推理 > DeepSeek模型基于ModelArts Lite Server适配Snt9b23的PD分离推理解决方案 > 准备Server资源环境 > 存储配置
创建并挂载SFS Turbo - 存储配置 - AI开发平台ModelArts

创建并挂载SFS Turbo SFS Turbo为用户提供按需扩展的高性能共享文件存储，还具备高可靠和高可用的特点，支持根据业务需要弹性扩容，且性能随容量增加而提升，可广泛应用于多种业务场景。在SFS服务控制台上创建文件系统，具体步骤请参考创建SFS Turbo文件系统。同一区域不同

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > Qwen3模型基于ModelArts Lite Cluster适配Snt9b23的混部推理解决方案 > 准备Cluster资源环境 > 存储配置
Lite Cluster资源使用 - AI开发平台ModelArts

Lite Cluster资源使用在Lite Cluster资源池上使用Snt9B完成分布式训练任务在Lite Cluster资源池上使用ranktable路由规划完成PyTorch NPU分布式训练在Lite Cluster资源池上使用Snt9B完成推理任务在Lite Cluster资源池上使用Ascend

帮助中心 > AI开发平台ModelArts > ModelArts Lite Cluster用户指南
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭ext4文件系统的dir_index属性，具体可参考：https://access

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

sfsturbo:shares:addShareNic：此策略项表示sfsturbo创建网卡的权限。 sfsturbo:shares:deleteShareNic：此策略项表示sfsturbo删除网卡的权限。 sfsturbo:shares:showShareNic：此策略项表示sfsturbo显示网卡详情的权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
在Lite Cluster挂载SFS Turbo - AI开发平台ModelArts

步骤五：Lite Cluster节点主机挂载SFS Turbo文件系统在弹性文件服务SFS控制台左侧导航栏选择“SFS Turbo”，单击步骤二：创建SFS Turbo文件系统创建的SFS Turbo文件系统名称，进入SFS Turbo文件系统详情界面，复制“Linux挂载命令”。图5

帮助中心 > AI开发平台ModelArts > ModelArts Lite Cluster用户指南 > Lite Cluster资源使用
日志提示“No space left on device” - AI开发平台ModelArts

blocksize越小，文件数量的上限越小。（ blocksize，系统默认 4096B。总共有三种大小：1024B、2048B、4096B）创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” 问题现象使用pytorch进行分布式训练时，日志中出现报错“RuntimeError: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GP相关问题
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

报错“BrokenPipeError: [Errno xx] Broken pipe”。原因分析出现该问题的可能原因如下：在大规模分布式作业上，每个节点都在复制同一个桶的文件，导致OBS桶限流。 OBS Client连接数过多，进程/线程之间的轮询，导致一个OBS Clie

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
训练前卡死 - AI开发平台ModelArts

日志中还未出现NCCL DEBUG信息时已卡死。解决方案1 检查代码，检查是否有参数中未传入“master_ip”和“rank”参数等问题。问题现象2 分布式训练的日志中，发现有的节点含有GDR信息，而有的节点无GDR信息，导致卡死的原因可能为GDR。 # 节点A日志 modelarts-job

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
管理训练容器环境变量 - AI开发平台ModelArts

路径相关环境变量分布式训练作业环境变量 NCCL（Nvidia Collective multi-GPU Communication Library）环境变量 OBS环境变量 PIP源环境变量 API网关地址环境变量作业元信息环境变量约束限制为了避免新设置的环境变量与系统环境变量冲

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 管理模型训练作业
ModelArts Lite Server - 准备工作 - AI开发平台ModelArts

Server 前提条件已开通Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。（多机运行分布式训练）已购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源，存储方案请参考配置Lite Server存储；支持在裸金属服务器中挂

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.902） > 准备工作
ModelArts Lite Server - 准备工作 - AI开发平台ModelArts

Server 前提条件已开通Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。（多机运行分布式训练）已购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源，存储方案请参考配置Lite Server存储；支持在裸金属服务器中挂

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.905） > 准备工作

总条数： 990

上一页
1
2
3
4
5
...
50
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消