检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
false } } ] }, "status" : 2, "duration_seconds" : 22, "create_time" : 1606373999627, "result" : "xxx", "version_id" : "XwTuRqI9En7xuZskW70
CANN:cann_8.0.rc3 容器镜像OS:hce_2.0 PyTorch:pytorch_2.1.0、pytorch_2.2.0 MindSpore:MindSpore 2.3.0 FrameworkPTAdapter:6.0.RC3 如果用到CCE,版本要求是CCE Turbo
MOSSMultiTurnHandler:使用微调的moss数据集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。
file_name) mox.file.copy(path_or_buf, local_file) result = read_hdf_origin(local_file, key, mode, **kwargs) mox.file.remove(local_file) return
filesystem NFS挂载的文件系统。 mount_point NFS的挂载点。 Diagnos cluster_id GPU所在节点所属的CCE集群ID。 node_ip GPU所在节点的IP。 pool_id 物理专属池对应的资源池ID。
rc3、8.0.0.B100 容器镜像OS:hce_2.0 PyTorch:pytorch_2.1.0、pytorch2.3.1 MindSpore:MindSpore 2.4.0 FrameworkPTAdapter:6.0.RC3 CCE:如果用到CCE,版本要求是CCE Turbo
], "max_tokens": 100, "top_k": -1, "top_p": 1, "temperature": 0, "ignore_eos": false, "stream": false }' 执行推理参考 配置服务化参数
这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的,例如使用的是x86的镜像却标记的是arm的系统架构。 可以通过查看模型详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。 父主题: 模型管理
选择Operating System、Architecture、Distribution、Version、Installer Type后,会生成对应的安装命令,复制安装命令并运行即可。
表1 扩容节点配置说明 参数名称 说明 系统盘 选择“系统盘类型”,并设置“大小”。创建Lite Server时自带系统盘,建议系统盘大小取值至少100GB。也可以在Lite Server资源创建完成后在云服务器侧实现系统盘的扩容。
数据未保存至/cache目录或者/home/ma-user/modelarts/目录,导致数据占满系统目录。系统目录仅支持系统功能基本运行,无法支持大数据存储。 部分训练任务会在训练过程中生成checkpoint文件,并进行更新。
原因分析 自定义镜像导入不支持配置运行时依赖,系统不会自动安装所需要的pip依赖包。 处理方法 重新构建镜像。 在构建镜像的dockerfile文件中安装pip依赖包,例如安装Flask依赖包。
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA 515+CUDA 11.7”。 操作步骤 卸载原有版本的NVIDIA和CUDA。
如果操作系统为Linux aarch64,请下载mindspore-lite-2.2.10-linux-aarch64.tar.gz。 如果操作系统为Linux x86_64,请下载mindspore-lite-2.2.10-linux-x64.tar.gz。
storage_type 否 String 挂载类型sfs_turbo极速文件系统挂载。 source_address 否 String 挂载源路径,挂载为极速文件时为sfs turbo id。
出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。 如果您需要解决“内存不够”的问题,建议您创建一个新的Notebook,使用更高规格的资源池,比如专属资源池来运行此训练代码。
系统自动从资源参数的“实例数”中读取。 “MA_NUM_HOSTS=4” VC_TASK_INDEX 当前容器索引,容器从0开始编号。单机训练的时候,该字段无意义。在多机作业中,用户可以根据这个值来确定当前容器运行的算法逻辑。
Lite Server资源管理 查看Lite Server服务器详情 启动或停止Lite Server服务器 同步Lite Server服务器状态 切换或重置Lite Server服务器操作系统 制作Lite Server服务器操作系统 Lite Server资源热备 退订Lite
原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker size大小时,会提示镜像内空间不足。