检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大语言模型简介 01:45:32 介绍大语言模型的概念定义、发展历史、基本原理和主要应用等 大规模语言模型并行训练系统和算法 01:11:35 介绍大规模语言模型训练的常见系统级和算法级技术,手把手教你炼大模型 大模型时代下的AI开发 59:32 介绍AI的演进历程和未来发展趋势,分析
FlavorInfoResponse 参数 参数类型 描述 max_num Integer 可以选择的最大节点数量(max_num,为1代表不支持分布式)。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。 npu Npu object Ascend规格信息。
Standard专属资源池提供的计算资源,结合SFS和OBS存储,在ModelArts Standard的训练环境中开展单机单卡、单机多卡、多机多卡分布式训练。 面向熟悉代码编写和调测的AI工程师,同时了解SFS和OBS云服务 从 0 制作自定义镜像并用于训练(PyTorch+CPU/GPU)
先联系您所在企业的华为方技术支持。 本文档适用于OBS+SFS Turbo的数据存储方案,不适用于仅OBS存储方案。通过OBS对象存储服务(Object Storage Service)与SFS Turbo文件系统联动,可以实现灵活数据管理、高性能读取等。 约束限制 适配的CANN版本是cann_8
表6 nfs属性列表 参数 参数类型 说明 id String SFS Turbo 文件系统 ID。 src_path String SFS Turbo 文件系统地址。 dest_path String 训练作业的本地路径。 read_only Boolean dest_path 是否为只读权限,默认为读写权限。
signature_defs: signature.append(signature_def) if len(signature) == 1: model_signature = signature[0]
从0制作自定义镜像用于创建训练作业(MindSpore+Ascend) 在镜像中安装pip依赖 在创建分布式训练作业前,建议提前安装所有的pip依赖,否则,当节点数大于10时,系统会自动删除pip源配置,当训练过程中涉及pip install操作时可能会训练失败。 提前安装依赖,确
会下载历史版本占用磁盘空间。 随后可通过以下两种方式,将下载到本地的模型文件上传至SFS Turbo中。 本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单,但是数据传输速度比较慢,费时间。方式二操作相对方式一复杂一些,但是数据传输速度较快。
会下载历史版本占用磁盘空间。 随后可通过以下两种方式,将下载到本地的模型文件上传至SFS Turbo中。 本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单,但是数据传输速度比较慢,费时间。方式二操作相对方式一复杂一些,但是数据传输速度较快。
会下载历史版本占用磁盘空间。 随后可通过以下两种方式,将下载到本地的模型文件上传至SFS Turbo中。 本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单,但是数据传输速度比较慢,费时间。方式二操作相对方式一复杂一些,但是数据传输速度较快。
会下载历史版本占用磁盘空间。 随后可通过以下两种方式,将下载到本地的模型文件上传至SFS Turbo中。 本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单,但是数据传输速度比较慢,费时间。方式二操作相对方式一复杂一些,但是数据传输速度较快。
会下载历史版本占用磁盘空间。 随后可通过以下两种方式,将下载到本地的模型文件上传至SFS Turbo中。 本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单,但是数据传输速度比较慢,费时间。方式二操作相对方式一复杂一些,但是数据传输速度较快。
会下载历史版本占用磁盘空间。 随后可通过以下两种方式,将下载到本地的模型文件上传至SFS Turbo中。 本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单,但是数据传输速度比较慢,费时间。方式二操作相对方式一复杂一些,但是数据传输速度较快。
系统容器异常退出 问题现象 在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
device_id, fmk_process.pid, fmk_process.returncode)) return fmk_process.returncode zero_ret_cnt +=
IAM子用户:由主账号在IAM中创建的用户,是服务的使用人员,具有独立的身份凭证(密码和访问密钥),根据账号授予的权限使用资源。IAM子用户相关介绍请参见IAM用户介绍。 联邦用户:又称企业虚拟用户。联邦用户相关介绍请参见联邦身份认证。 委托用户:IAM中创建的一个委托。IAM创建委托相关介绍请参见创建委托。
点续训 企业在具体使用大模型接入企业应用系统的时候,不仅要考虑模型体验情况,还需要考虑模型具体的精度效果,和实际应用成本。 MaaS提供灵活的模型开发能力,同时基于昇腾云的算力底座能力,提供了若干保障客户商业应用的关键能力。 保障客户系统应用大模型的成本效率,按需收费,按需扩缩的
云上挂载路径 Notebook中挂载SFS后,SFS默认在“/home/ma-user/work”路径下。在创建训练作业时,设置SFS Turbo的“云上挂载路径”为“/home/ma-user/work”,使得训练环境下SFS也在“/home/ma-user/work”路径下。
CANN Graph 什么是CANN Graph CANNGraph图模式是一种Capture-Replay架构的Host图,可以有效消除Host瓶颈,支持模型输入动态shape,无需分档构图,构图较快。未设置INFER_MODE环境变量时,即默认模式下,部分模型会默认使用CANNGraph图模式启动来提升性能。
共需要采集6类日志:用户训练打屏日志,主机侧操作系统日志(Host日志), Device侧日志,CANN日志,主机侧资源信息,NPU网口资源信息。 用户训练打屏日志:指在训练过程中,通过设置环境变量将日志信息输出到标准输出(屏幕)的日志。 机侧操作系统日志(Host日志):指在训练作业运行过程中,HOST侧用户进程产生的日志。