检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。 中:对于可能导致安全风险及可靠性降低的高危操作。 低:高、中风险等级外的其他高危操作。 表1 高危操作一览表 操作对象 操作名称 风险描述 风险等级 应对措施 操作系统 升级/修改操作系统内核或者驱动。 如果升级/修改操作系统内核或者
update -y”,“yum update -y”命令是用于在Linux操作系统上更新软件包的命令。其中,选项-y表示在更新时自动确认所有提示信息,而不需要手动输入“y”确认。 请注意,使用此命令将会检查您系统中已安装的软件包并更新至最新版本。 图1 yum命令历史 查看NetworkManager配置:
s.cpp:100.) return torch._C._cuda_getDeviceCount() > 0 原因分析 nvidia-modprobe是一个Linux工具,用于在系统中加载NVIDIA驱动程序及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后,需
DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 约束限制 仅适用于GPU资源监控。 前提条件 裸金属服务器需要安装driver、cuda、fabric-manager软件包。
如果使用SFS服务作为存储方案,推荐使用SFS Turbo文件系统。SFS Turbo提供按需扩展的高性能文件存储,还具备高可靠和高可用的特点,支持根据业务需要弹性扩容,且性能随容量增加而提升,可广泛应用于多种业务场景。 在SFS服务控制台上创建文件系统,具体步骤请参考创建SFS Turbo文件系统。同一区域不同
Lite又分以下2种形态: ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。请参见弹性裸金属Lite
接训练速度会比较慢,通常会先将数据拉取到本地cache,然后再进行训练任务。 静态挂载 动态挂载 SFS Turbo 适用于海量小文件业务场景。 提供posix协议的文件系统; 需要和资源池在同一个VPC下或VPC互通; 价格较高。 静态挂载 动态挂载:不支持 SFS 适用于多读多写场景的持久化存储。
Server服务器操作系统 场景描述 Lite Server为一台弹性裸金属服务器,您可以使用BMS服务提供的制作镜像功能,将当前Lite Server服务器的操作系统保存为镜像。 约束限制 制作镜像需满足以下条件:当前裸金属服务器状态为停止状态。 制作操作系统步骤 制作操作系统镜像前需要先
Server服务器操作系统 场景描述 Lite Server为一台弹性裸金属服务器,您可以使用BMS服务提供的切换操作系统功能,对Lite Server资源操作系统进行切换。本文介绍以下几种切换操作系统的方式: 在BMS控制台切换操作系统 使用BMS Go SDK的方式切换操作系统 使用Python封装API的方式切换操作系统
如果界面无可选规格,请联系华为云技术支持申请开通。 系统盘 系统盘和规格有关,选择支持挂载的规格才会显示此参数。可以在创建完成后在云服务器侧实现数据盘挂载或系统盘的扩容,建议取值至少100GB。 表4 镜像配置参数说明 参数名称 说明 镜像 公共镜像 常见的标准操作系统镜像,所有用户可见,包括操作系统以及预装的公共应
Lite Server GPU A系列裸金属服务器如何进行RoCE性能带宽测试? GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic? 如何禁止Ubuntu 20.04内核自动升级?
Megatron-DeepSpeed是一个基于PyTorch的深度学习模型训练框架。它结合了两个强大的工具:Megatron-LM和DeepSpeed,可在具有分布式计算能力的系统上进行训练,并且充分利用了多个GPU和深度学习加速器的并行处理能力。可以高效地训练大规模的语言模型。 Megatron-LM是一个用于大规
Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决? GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed
REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS: 重装操作系统中: REINSTALLINGOS_FAILED。重装操作系统失败。 vpc_id String 实例所在虚拟私有云ID。
UDP端口配置情况 影响NPU卡通信性能 Snt9B Snt9C 系统内核自动升级预警 KernelUpgradeWarning 重要 系统内核自动升级预警,旧版本:%s,新版本:%s 系统内核升级可能导致配套AI软件异常,请检查系统更新日志,避免机器重启 可能导致配套AI配套软件不可用 Snt3P
再次单击“退订”,完成包年/包月资源的退订操作。 释放被冻结的“包年/包月”的Lite Server资源 包周期节点或整柜资源被冻结锁定时,无法通过“退订”功能释放资源,此时系统支持直接通过“释放”按钮释放资源。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点
DevServer管理 查询用户所有DevServer实例列表 创建DevServer 查询DevServer实例详情 删除DevServer实例 实时同步用户所有DevServer实例状态 启动DevServer实例 停止DevServer实例
return region_id def gen_collect_gpu_log_shell(self): collect_gpu_log_shell = "nvidia-bug-report.sh" return collect_gpu_log_shell
log.") if self.is_300_iduo: return collect_npu_log_shell return collect_npu_log_shell + hccn_tool_log_shell
DevServer权限 表1 DevServer细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建DevServer实例 POST /v1/{project_id}/dev-servers modelarts:devserver:create e