搜索_华为云

预训练 - 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。图4 选择SFS Turbo 作业日志选择OBS中的路径，ModelArts的训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户在创建Notebook的“子目录挂载”路径。若默认没有填写，则忽略。图4 选择SFS Turbo 作业日志选择OBS中的路径，ModelArts的训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
预训练 - 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。图4 选择SFS Turbo 作业日志选择OBS中的路径，ModelArts的训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。图4 选择SFS Turbo 作业日志选择OBS中的路径，ModelArts的训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。图4 选择SFS Turbo 作业日志选择OBS中的路径，ModelArts的训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
约束与限制 - AI开发平台ModelArts

想重装操作系统，您可通过切换操作系统的方式解决。更多信息，请参见Server使用前须知。 ModelArts Lite Server服务器重装或者切换操作系统后，对应的EVS系统盘ID发生变化，和下单时订单中的EVS ID已经不一致，因此EVS系统盘无法扩容，并显示信息："当前

 帮助中心 > AI开发平台ModelArts > 产品介绍
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

具体而言，云服务提供商应该提供以下服务和功能：建立和维护安全的基础设施，包括网络、服务器和存储设备等。提供安全的底层基础平台，保证底层环境的运行时安全。提供安全的身份验证和访问控制机制，以确保只有授权用户可以访问云服务，保证租户之间的相互隔离。提供可靠的备份和灾难恢复机制，以确保数据不会因为硬件故障或自然灾害等原因而丢失。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
OOM导致训练作业失败 - AI开发平台ModelArts

因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle outputs of training job 日志中有

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

予OBS的系统权限。子用户的IAM权限是由其主用户设置的，如果主用户没有赋予OBS的putObjectAcl权限即会导致创建模型构建失败。处理方法了解ModelArts依赖的OBS权限自定义策略，请参见ModelArts依赖的OBS权限自定义策略样例。在统一身份认证服务为用

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
准备数据 - 准备工作 - AI开发平台ModelArts

"system": "系统提示词（选填）", "tools": "工具描述（选填）" } ] 上传数据到指定目录将下载的原始数据存放在/mnt/sfs_turbo/training_data目录下。具体步骤如下：进入到/mnt/sfs_turbo/目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导（6.5.901） > 准备工作
准备数据 - 准备工作 - AI开发平台ModelArts

"system": "系统提示词（选填）", "tools": "工具描述（选填）" } ] 上传数据到指定目录将下载的原始数据存放在/mnt/sfs_turbo/training_data目录下。具体步骤如下：进入到/mnt/sfs_turbo/目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备数据 - 准备工作 - AI开发平台ModelArts

"system": "系统提示词（选填）", "tools": "工具描述（选填）" } ] 上传数据到指定目录将下载的原始数据存放在/mnt/sfs_turbo/training_data目录下。具体步骤如下：进入到/mnt/sfs_turbo/目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
模型最小卡数配置 - AI开发平台ModelArts

DeepSeek-V3/R1 full 4096 512*Ascend lora 64*Ascend 1. 当mindspeed-llm上开启分布式优化器并行时，优化器参数会在集群所有机器上切分共享，因此最优配置会和卡数相关； 2. 当前benchmark是综合考虑了最小可运行卡数和最

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导（6.5.902） > 训练脚本说明参考
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

Swin-Transformer sed -i 's/\r//' run.sh Shell脚本在Windows系统编写时，每行结尾是\r\n，而在Linux系统中行每行结尾是\n，所以在Linux系统中运行脚本时，会认为\r是一个字符，导致运行报错“$'\r': command not foun

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

Call to connect returned Connection refused, retrying”，则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量，该环境变量由系统自动注入，训练代码中无需设置。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
准备数据 - 准备工作 - AI开发平台ModelArts

"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则？<eoh>\n"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Standard+OBS适配MindSpeed-LLM PyTorch NPU训练指导（6.5.901） > 准备工作
准备数据 - 准备工作 - AI开发平台ModelArts

"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则？<eoh>\n"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
查询网络资源列表 - AI开发平台ModelArts

Abnormal：网络连接不正常表15 sfsTurboStatus 参数参数类型描述 sfsId String SFS Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
删除网络资源 - AI开发平台ModelArts

Abnormal：网络连接不正常表12 sfsTurboStatus 参数参数类型描述 sfsId String SFS Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
准备数据 - 准备工作 - AI开发平台ModelArts

"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则？<eoh>\n"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作

总条数： 906

上一页
1
...
10
11
12
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消