搜索_华为云

在Linux上安装配置Grafana - AI开发平台ModelArts

在Linux上安装配置Grafana 适用场景本章节适用于在Linux操作系统的PC中安装配置Grafana。前提条件一台可访问外网的Ubuntu服务器。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
训练作业容错检查 - AI开发平台ModelArts

场景一：环境预检测失败、硬件检测出现故障，系统隔离所有故障节点并重新下发训练作业。图1 预检失败&硬件故障场景二：环境预检测失败、硬件无故障，系统随机再分配节点并重新下发训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 模型训练高可靠性
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

- 当前使用的操作系统及版本当前推理业务的操作系统及版本，如：Ubuntu 22.04。是否使用容器化运行业务，以及容器中OS版本，HostOS中是否有业务软件以及HostOS的类型和版本。需要评估是否愿意迁移到华为云的通用OS。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 推理迁移指导（MindSporeLite）
LLaMA-VID基于Lite Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
SD3.5基于Lite Server适配PyTorch NPU的训练指导（6.5.901） - AI开发平台ModelArts

宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下可存放项目所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 图像生成模型训练推理
ModelArts Lite Server - 准备工作 - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。步骤一：检查环境 SSH登录机器后，检查NPU设备状态。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.902） > 准备工作
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

处理方法尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量，用系统默认里面自带的。如果必须指定卡ID，需要注意1/2/4规格下，指定的卡ID与实际分配的卡ID不匹配的情况。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GP相关问题
从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

图1 DLI导入数据队列名称：系统自动将当前账号下的DLI队列展现在列表中，用户可以在下拉框中选择需要的队列。数据库名称：根据选择的队列展现所有的数据库，请在下拉框中选择您所需的数据库。表名称：根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 数据准备与处理 > 导入数据到ModelArts数据集
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

重新安装软件后，重启系统，可能触发了某种硬件自检或修复机制，从而恢复了正常的带宽。系统负载问题：最初测试GPU卡间带宽时，可能存在其他系统负载，如进程、服务等，这些负载会占用一部分网络带宽，从而影响NVLINK带宽的表现。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
SSH偶现拒绝访问问题，报错：Not allowed at this time - AI开发平台ModelArts

group: files：指定系统从本地文件（如/etc/group）中读取组信息。 90秒后重试SSH连接，即可恢复正常。父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
在Workflow中更新已部署的服务 - AI开发平台ModelArts

编写工作流基于编写工作流代码示例的场景案例进行改造，代码编写示例如下： from modelarts import workflow as wf # 定义统一存储对象管理输出目录 output_storage = wf.data.OutputStorage(name="output_storage

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
推理场景介绍 - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
SparseDrive模型基于ModelArts Lite Server适配PyTorch NPU训练指导 - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 自动驾驶模型训练推理
ModelArts Lite Server - 准备工作 - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。步骤一：检查环境 SSH登录机器后，检查NPU设备状态。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.905） > 准备工作
Standard专属资源池 - AI开发平台ModelArts

ModelArts训练专属资源池如何与SFS弹性文件系统配置对等连接？

帮助中心 > AI开发平台ModelArts > 常见问题
推理层日志采集与转储 - AI开发平台ModelArts

ma-user/AscendCloud/logs 标准输出执行kubectl logs -f ${podName}，其中${podName}是推理服务的POD名称 NPU Device log Device侧应用进程产生的运行、调试、安全日志，具体日志的目录结构可参考导出Device侧系统类日志和文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > Qwen3模型基于ModelArts Lite Cluster适配Snt9b23的混部推理解决方案 > 日志采集与转储
VS Code ToolKit连接Notebook - AI开发平台ModelArts

图8 连接Notebook实例或者单击实例名称，在VS Code开发环境中显示Notebook实例详情页，单击“连接”，系统自动启动该Notebook实例并进行远程连接。图9 查看Notebook实例详情页第一次连接Notebook时，系统右下角会提示需要先配置密钥文件。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 图像生成模型训练推理
moondream2基于Lite Server适配PyTorch NPU推理指导 - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。检查环境。 SSH登录机器后，检查NPU设备状态。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
在Lite Cluster资源池上使用ranktable路由规划完成PyTorch NPU分布式训练 - AI开发平台ModelArts

在CCE集群详情页，选择左侧导航栏的“节点管理”，选择“节点”页签。在节点列表，单击操作列的“更多 > 查看YAML”查看节点配置信息。查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。

帮助中心 > AI开发平台ModelArts > ModelArts Lite Cluster用户指南 > Lite Cluster资源使用

总条数： 1497

上一页
1
...
70
71
72
...
75
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消